当前位置:首页 » 编程语言 » python分词程序

python分词程序

发布时间: 2022-08-09 15:53:50

㈠ 基于 python 的中文分词方案那种比较好

我没用过python语言写的分词程序。
分词这种功能属于计算密集型功能,需要大量计算,python不适合这种场合,可以考虑python调用c库。

㈡ python3怎么使用结巴分词

下面这个程序是对一个文本文件里的内容进行分词的程序:test.py

[python] view plain

#!/usr/bin/python

#-*-encoding:utf-8-*-

importjieba#导入jieba模块

defsplitSentence(inputFile,outputFile):

fin=open(inputFile,'r')#以读的方式打开文件

fout=open(outputFile,'w')#以写得方式打开文件

foreachLineinfin:

line=eachLine.strip().decode('utf-8','ignore')#去除每行首尾可能出现的空格,并转为Unicode进行处理

wordList=list(jieba.cut(line))#用结巴分词,对每行内容进行分词

outStr=''

forwordinwordList:

outStr+=word

outStr+='/'

fout.write(outStr.strip().encode('utf-8')+' ')#将分词好的结果写入到输出文件

fin.close()

fout.close()

splitSentence('myInput.txt','myOutput.txt')

写完程序之后,在Linux重点输入:python test.py即可运行程序进行分词。


输入的文件内容如下所示:

注意:第11行的 jieba.cut()返回的结构是一个可迭代的generator,可以用list(jieba.cut(...))转化为list

㈢ python打开txt文件 并且对这个txt文件中的内容进行ngram分词 已有分词代码如下图且运

fname='/d/filename.txt'
withopen(fname)asf:
s=f.read()
ng=NGram(s)
print(ng.table)

㈣ 如何用python进行中文分词

安装jieba
pipinstalljieba

然后

>>>importjieba
>>>seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
>>>print("FullMode:"+"/".join(seg_list))
...
DumpingmodeltofilecacheC:.cache
Loadingmodelcost0.902seconds.
.
FullMode:我/来到/北京/清华/清华大学/华大/大学
>>>seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
>>>print("PreciseMode:"+"/".join(seg_list))
PreciseMode:我/来到/北京/清华大学

还有更多的模式和细节,自己去网络吧

㈤ 如何用python和jieba分词,统计词频

#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter

defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!=' ':
c[x]+=1
print('常用词频度统计结果')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))

if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)

㈥ 如何用python进行海量中文分词

1、全局变量在函数中使用时需要加入global声明
2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312,当匹配到的中文写入文件时需要encode成GB2312写入文件。
3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组
4、KEY,Value值可以使用dict存储,排序后可以使用list存储
5、字符串处理使用split分割,然后使用index截取字符串,判断哪些是名词和动词
6、命令行使用需要导入os,os.system(cmd)

㈦ 如何利用Python对中文进行分词处理

python做中文分词处理主要有以下几种:结巴分词、NLTK、THULAC
1、fxsjy/jieba
结巴的标语是:做最好的 Python 中文分词组件,或许从现在来看它没做到最好,但是已经做到了使用的人最多。结巴分词网上的学习资料和使用案例比较多,上手相对比较轻松,速度也比较快。
结巴的优点:
支持三种分词模式
支持繁体分词
支持自定义词典
MIT 授权协议

2、THULAC:一个高效的中文词法分析工具包
前两天我在做有关于共享单车的用户反馈分类,使用jieba分词一直太过零散,分类分不好。后来江兄给我推荐了THULAC: 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包 。THULAC的接口文档很详细,简单易上手。
THULAC分词的优点:
能力强。利用规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度达到1.3MB/s,速度比jieba慢

Python 解决中文编码问题基本可以用以下逻辑:
utf8(输入) ——> unicode(处理) ——> (输出)utf8
Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。
由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(sometexts.decode('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。

㈧ python3 进行结巴分词时可以并行处理吗

下面这个程序是对一个文本文件里的内容进行分词的程序:test.py
[python] view plain
#!/usr/bin/python
#-*- encoding:utf-8 -*-
import jieba #导入jieba模块

def splitSentence(inputFile, outputFile):
fin = open(inputFile, 'r') #以读的方式打开文件
fout = open(outputFile, 'w') #以写得方式打开文件

for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格,并转为Unicode进行处理
wordList = list(jieba.cut(line)) #用结巴分词,对每行内容进行分词
outStr = ''
for word in wordList:
outStr += word
outStr += '/ '
fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件
fin.close()
fout.close()

splitSentence('myInput.txt', 'myOutput.txt')
写完程序之后,在Linux重点输入:python test.py即可运行程序进行分词。

㈨ 如何用PYTHON做分词处理

可以利用python的jieba分词,得到文本中出现次数较多的词。

首先pip安装一下jieba,这个可以分词

然后用计数器Counter()统计一下得到的分词中各词的数量

最后most_common(5),是打印出排名前五位的词(包括特殊符号)

#encoding:utf-8
importsys
reload(sys)
sys.setdefaultencoding('utf-8')


importjieba
fromcollectionsimportCounter

str1=open('tips.txt').read()

wordlist_after_jieba=jieba.cut(str1,cut_all=True)

list_wl=Counter(wordlist_after_jieba)
foriinlist_wl.most_common(5):
printi[0],i[1]

㈩ 怎么是用python 语言 使用结巴分词 呢

Python代码

#encoding=utf-8
importjieba

seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默认模式

seg_list=jieba.cut("他来到了网易杭研大厦")
print",".join(seg_list)

输出:

FullMode:我/来/来到/到/北/北京/京/清/清华/清华大学/华/华大/大/大学/学

DefaultMode:我/来到/北京/清华大学

他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
热点内容
凸包的graham算法 发布:2025-01-21 12:00:00 浏览:146
jsonobject转java对象 发布:2025-01-21 12:00:00 浏览:306
macpython3默认 发布:2025-01-21 11:58:26 浏览:261
芒果服务器是什么意思 发布:2025-01-21 11:57:54 浏览:40
微信聊天服务器错误什么意思 发布:2025-01-21 11:56:13 浏览:460
linuxtomcat不能访问 发布:2025-01-21 11:47:11 浏览:394
刷新器需要什么配置 发布:2025-01-21 11:09:28 浏览:972
jedis源码 发布:2025-01-21 11:08:24 浏览:890
edm数据库 发布:2025-01-21 11:05:54 浏览:371
QQ咋样加密 发布:2025-01-21 11:05:45 浏览:164