當前位置:首頁 » 編程語言 » python去停用詞

python去停用詞

發布時間: 2022-07-30 08:03:44

A. 如何刪除「使用NLTK或者python停用詞"

Nltk是python下處理語言的主要工具包,可以實現去除停用詞、詞性標注以及分詞和分句等。

安裝nltk,寫python一般使用的是集成環境EPD,其中有包管理,可以在線進行安裝。如果不是集成環境,可以通過pip install nltk安裝。

》pip install nltk #安裝nltk

》nltk.download() #彈出一個選擇框,可以按照自己需要的語義或者是功能進行安裝

一般要實現分詞,分句,以及詞性標注和去除停用詞的功能時,需要安裝stopwords,punkt以及

當出現LookupError時一般就是由於缺少相關模塊所導致的

則是需要安裝punkt,這個模塊主要負責的是分詞功能。同stopwords一樣有兩種方式安裝。

B. 在Python中,我有一個字典,想在字典中刪除停用詞表中的單詞,程序應該怎麼編。

en_dict={}
stop_en_dict={}

forkeyinstop_en_dict.keys():
ifkeyinen_dict:
delen_dict[key]

printen_dict

C. python jieba停用詞該如何設置

你把你的停用詞排一下序,然後再給結巴看看。
或者加兩個停用詞,一個河北、一個西南部。
停用詞通常是很短的高頻出現的詞語,真實情況你這樣的不多。
如果你這種情況,不妨先分詞,也不去停用詞。
然後自己再來後續處理。

D. python怎麼去除停用詞的

結合jieba分詞,裡面有去停止詞相關模板,自己研究下吧,網上也有相關資料。

E. 如何用python對一個文件夾下的多個txt文本進行去停用詞

在用 for 循環去停用詞的部分,出錯,僅去掉了 stopwords 中的部分停用詞,且相同停用詞只去除了一次。求大神告知錯誤之處,貼上代碼再好不過!!
#encoding=utf-8
import sys
import re
import codecs
import os
import shutil
import jieba
import jieba.analyse

#導入自定義詞典
#jieba.load_userdict("dict_.txt")

#Read file and cut
def read_file_cut():

#create path
stopwords = {}.fromkeys([ line.strip() for line in open('stopword.txt') ])
path = "Lon\\"
respath = "Lon_Result\\"
if os.path.isdir(respath): #如果respath這個路徑存在
shutil.rmtree(respath, True) #則遞歸移除這個路徑
os.makedirs(respath) #重新建立一個respath目錄

num = 1
while num<=20:
name = "%d" % num
fileName = path + str(name) + ".txt"
resName = respath + str(name) + ".txt"
source = open(fileName, 'r')
if os.path.exists(resName):
os.remove(resName)
result = codecs.open(resName, 'w', 'utf-8')
line = source.readline()
line = line.rstrip('\n')

while line!="":
line = unicode(line, "utf-8")
output=''
seglist = jieba.cut(line,cut_all=False)
for seg in seglist:
seg=seg.encode('utf-8')
if seg not in stopwords:
output+=seg
output = ' '.join(list(seglist))#空格拼接
print output
result.write(output + '\r\n')
line = source.readline()
else:
print 'End file: ' + str(num)
source.close()
result.close()
num = num + 1
else:
print 'End All'

#Run function
if __name__ == '__main__':
read_file_cut()

我覺得是這樣啦:
...
seglist = jieba.cut(line,cut_all=False)
seglist = (seg.encode('utf-8') for seg in seglist)
seglist = [seg for seg in seglist if seg not in stopwords]
output = ' '.join(seglist)
print output
...

不太懂你這兩行的意思:
output+=seg
output = ' '.join(list(seglist))#空格拼接

每次 output 都會被設定成 ' '.join(list(seglist)) 那 output+=seg 好像就沒有意義了。

F. python去除停止詞,停止詞文件正確格式如何書寫

ss="aa"
ifnotisinstance(ss,unicode):
ss=ss.decode('utf-8')
printtype(ss)
將str類型轉換成utf8再比較

G. python jieba分詞如何去除停用詞

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他編碼讀取停用詞表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用詞文件是utf8編碼
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#經過分詞得到的應該是unicode編碼,先將其轉成utf8編碼

H. python中從列表中用for循環刪除(remove方法)停用詞特別慢,有快一點的方法嗎

循環刪除,必須用循環語句,而循環語句就那麼幾個!!

I. NLTK 在python上 對文本文件內容進行停詞處理

Nltk是python下處理語言的主要工具包,可以實現去除停用詞、詞性標注以及分詞和分句等。
安裝nltk,寫python一般使用的是集成環境EPD,其中有包管理,可以在線進行安裝。如果不是集成環境,可以通過pip install nltk安裝。
》pip install nltk #安裝nltk
》nltk.download() #彈出一個選擇框,可以按照自己需要的語義或者是功能進行安裝
一般要實現分詞,分句,以及詞性標注和去除停用詞的功能時,需要安裝stopwords,punkt以及
當出現LookupError時一般就是由於缺少相關模塊所導致的

熱點內容
宜信宜人貸提供服務密碼是什麼 發布:2025-01-24 07:15:40 瀏覽:545
編程和引擎 發布:2025-01-24 07:14:19 瀏覽:620
landscapeandroid 發布:2025-01-24 07:11:09 瀏覽:968
如何進行隊伍配置 發布:2025-01-24 06:57:00 瀏覽:513
安卓線和華為線有什麼區別 發布:2025-01-24 06:56:57 瀏覽:976
oracle存儲過程傳入數組 發布:2025-01-24 06:49:26 瀏覽:718
密碼的前三個字是什麼 發布:2025-01-24 06:36:48 瀏覽:584
伺服器e3與e5有什麼區別 發布:2025-01-24 06:19:35 瀏覽:122
linuxdb2建資料庫 發布:2025-01-24 06:19:09 瀏覽:665
武漢長江存儲公司有多少人 發布:2025-01-24 06:09:03 瀏覽:413