python去停用詞

發布時間: 2022-07-30 08:03:44

A. 如何刪除「使用NLTK或者python停用詞"

Nltk是python下處理語言的主要工具包，可以實現去除停用詞、詞性標注以及分詞和分句等。

安裝nltk,寫python一般使用的是集成環境EPD，其中有包管理，可以在線進行安裝。如果不是集成環境，可以通過pip install nltk安裝。

》pip install nltk #安裝nltk

》nltk.download() #彈出一個選擇框，可以按照自己需要的語義或者是功能進行安裝

一般要實現分詞，分句，以及詞性標注和去除停用詞的功能時，需要安裝stopwords,punkt以及

當出現LookupError時一般就是由於缺少相關模塊所導致的

則是需要安裝punkt，這個模塊主要負責的是分詞功能。同stopwords一樣有兩種方式安裝。

B. 在Python中，我有一個字典，想在字典中刪除停用詞表中的單詞，程序應該怎麼編。

en_dict={}
stop_en_dict={}

forkeyinstop_en_dict.keys():
ifkeyinen_dict:
delen_dict[key]

printen_dict

C. python jieba停用詞該如何設置

你把你的停用詞排一下序，然後再給結巴看看。
或者加兩個停用詞，一個河北、一個西南部。
停用詞通常是很短的高頻出現的詞語，真實情況你這樣的不多。
如果你這種情況，不妨先分詞，也不去停用詞。
然後自己再來後續處理。

D. python怎麼去除停用詞的

結合jieba分詞，裡面有去停止詞相關模板，自己研究下吧，網上也有相關資料。

E. 如何用python對一個文件夾下的多個txt文本進行去停用詞

在用 for 循環去停用詞的部分，出錯，僅去掉了 stopwords 中的部分停用詞，且相同停用詞只去除了一次。求大神告知錯誤之處，貼上代碼再好不過！！
#encoding=utf-8
import sys
import re
import codecs
import os
import shutil
import jieba
import jieba.analyse

#導入自定義詞典
#jieba.load_userdict("dict_.txt")

#Read file and cut
def read_file_cut():

#create path
stopwords = {}.fromkeys([ line.strip() for line in open('stopword.txt') ])
path = "Lon\\"
respath = "Lon_Result\\"
if os.path.isdir(respath): #如果respath這個路徑存在
shutil.rmtree(respath, True) #則遞歸移除這個路徑
os.makedirs(respath) #重新建立一個respath目錄

num = 1
while num<=20:
name = "%d" % num
fileName = path + str(name) + ".txt"
resName = respath + str(name) + ".txt"
source = open(fileName, 'r')
if os.path.exists(resName):
os.remove(resName)
result = codecs.open(resName, 'w', 'utf-8')
line = source.readline()
line = line.rstrip('\n')

while line!="":
line = unicode(line, "utf-8")
output=''
seglist = jieba.cut(line,cut_all=False)
for seg in seglist:
seg=seg.encode('utf-8')
if seg not in stopwords:
output+=seg
output = ' '.join(list(seglist))#空格拼接
print output
result.write(output + '\r\n')
line = source.readline()
else:
print 'End file: ' + str(num)
source.close()
result.close()
num = num + 1
else:
print 'End All'

#Run function
if __name__ == '__main__':
read_file_cut()

我覺得是這樣啦:
...
seglist = jieba.cut(line,cut_all=False)
seglist = (seg.encode('utf-8') for seg in seglist)
seglist = [seg for seg in seglist if seg not in stopwords]
output = ' '.join(seglist)
print output
...

不太懂你這兩行的意思:
output+=seg
output = ' '.join(list(seglist))#空格拼接

每次 output 都會被設定成 ' '.join(list(seglist)) 那 output+=seg 好像就沒有意義了。

F. python去除停止詞，停止詞文件正確格式如何書寫

ss="aa"
ifnotisinstance(ss,unicode):
ss=ss.decode('utf-8')
printtype(ss)
將str類型轉換成utf8再比較

G. python jieba分詞如何去除停用詞

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他編碼讀取停用詞表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用詞文件是utf8編碼
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#經過分詞得到的應該是unicode編碼，先將其轉成utf8編碼

H. python中從列表中用for循環刪除(remove方法)停用詞特別慢，有快一點的方法嗎

循環刪除，必須用循環語句，而循環語句就那麼幾個！！

I. NLTK 在python上對文本文件內容進行停詞處理

Nltk是python下處理語言的主要工具包，可以實現去除停用詞、詞性標注以及分詞和分句等。
安裝nltk,寫python一般使用的是集成環境EPD，其中有包管理，可以在線進行安裝。如果不是集成環境，可以通過pip install nltk安裝。
》pip install nltk #安裝nltk
》nltk.download() #彈出一個選擇框，可以按照自己需要的語義或者是功能進行安裝
一般要實現分詞，分句，以及詞性標注和去除停用詞的功能時，需要安裝stopwords,punkt以及
當出現LookupError時一般就是由於缺少相關模塊所導致的

閱讀全文

熱點內容

搭載ftp伺服器的電腦有影響嗎發布：2025-10-17 01:01:42 瀏覽：344

伺服器的地址是怎麼來的發布：2025-10-17 00:56:57 瀏覽：346

伺服器可以代替幾台電腦發布：2025-10-17 00:56:19 瀏覽：653

在qq空間怎麼設置密碼發布：2025-10-17 00:37:06 瀏覽：672

c預編譯一次發布：2025-10-17 00:30:15 瀏覽：818

我的世界電腦版空島戰爭伺服器推薦發布：2025-10-17 00:30:13 瀏覽：204

學java可以做什麼發布：2025-10-17 00:17:07 瀏覽：50

重慶開票軟體伺服器地址雲伺服器發布：2025-10-17 00:16:04 瀏覽：941

腳本掛冒險發布：2025-10-16 23:57:09 瀏覽：826

資料庫原理電子書發布：2025-10-16 23:48:49 瀏覽：946

python去停用詞

與python去停用詞相關的資訊