jieba分詞python

發布時間: 2023-07-01 09:11:13

❶ 在python 環境下，使用結巴分詞，自動導入文本，分詞，提取關鍵詞.腳本大俠給個

#-*-coding:UTF-8-*-

importjieba

__author__='lpe234'


seg_list=jieba.cut("我來到北京天安門",cut_all=True)
print','.join(seg_list)

...
Loadingmodelfromcache/var/folders/sv//T/jieba.cache
我,來到,北京,天安,天安門
Loadingmodelcost0.433seconds.
.

Processfinishedwithexitcode0

❷ jieba分詞詳解

「結巴」分詞是一個Python 中文分片語件，參見 https://github.com/fxsjy/jieba
可以對中文文本進行 分詞、詞性標注、關鍵詞抽取 等功能，並且支持自定義詞典。

本文包括以下內容：
1、jieba分詞包的安裝
2、jieba分詞的 使用教程
3、jieba分詞的 工作原理與工作流程
4、jieba分詞所涉及到的 HMM、TextRank、TF-IDF等演算法介紹

可以直接使用pip來進行安裝：
sudo pip install jieba
或者
sudo pip3 install jieba

關鍵詞抽取有兩種演算法，基於TF-IDF和基於TextRank：

jieba分詞有三種不同的分詞模式： 精確模式、全模式和搜索引擎模式 ：

對應的，函數前加l即是對應得到list結果的函數：

精確模式是最常用的分詞方法，全模式會將句子中所有可能的詞都列舉出來，搜索引擎模式則適用於搜索引擎使用。具體的差別可在下一節工作流程的分析中詳述。

在上述每個函數中，都有名為HMM的參數。這一項表示是否在分詞過程中利用HMM進行新詞發現。關於HMM，本文附錄中將簡述相關知識。

另外分詞支持自定義字典，詞典格式和 dict.txt 一樣，一個詞佔一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒。
具體使用方法為：

關鍵詞抽取的兩個函數的完整參數為：

可以通過

來打開或關閉並行分詞功能。
個人感覺一般用不到，大文件分詞需要手動實現多進程並行，句子分詞也不至於用這個。

jieba分詞主要通過詞典來進行分詞及詞性標注，兩者使用了一個相同的詞典。正因如此，分詞的結果優劣將很大程度上取決於詞典，雖然使用了HMM來進行新詞發現。
jieba分詞包整體的工作流程如下圖所示：

下面將根據源碼詳細地分析各個模塊的工作流程。

在之後幾節中，我們在 藍色的方框 中示範了關鍵步驟的輸出樣例或詞典文件的格式樣例。在本節中都採用類似的表示方式。

jieba分詞中，首先通過對照典生成句子的 有向無環圖 ，再根據選擇的模式不同，根據詞典 尋找最短路徑 後對句子進行截取或直接對句子進行截取。對於未登陸詞（不在詞典中的詞）使用 HMM 進行新詞發現。

詞典的格式應為
word1 freq1 word_type1
word2 freq2 word_type2
…
其中自定義用戶詞典中詞性word_type可以省略。
詞典在其他模塊的流程中可能也會用到，為方便敘述，後續的流程圖中將會省略詞典的初始化部分。

圖b演示了搜索引擎模式的工作流程，它會在精確模式分詞的基礎上，將長詞再次進行切分。

在這里我們假定讀者已經了解HMM相關知識，如果沒有可先行閱讀下一章內容中的HMM相關部分或者跳過本節。

在jieba分詞中，將字在詞中的位置B、M、E、S作為隱藏狀態，字是觀測狀態，使用了詞典文件分別存儲字之間的表現概率矩陣（finalseg/prob_emit.py）、初始概率向量(finalseg/prob_start.py)和轉移概率矩陣(finalseg/prob_trans.py)。這就是一個標準的 解碼問題 ，根據概率再利用 viterbi演算法 對最大可能的隱藏狀態進行求解。

詞性分析部分與分詞模塊用了同一個基礎的分詞器，對於詞典詞的詞性，將直接從詞典中提取，但是對於新詞，詞性分析部分有一個 專屬的新詞及其詞性的發現模塊 。
用於詞性標注的HMM模型與用於分詞的HMM模型相似，同樣將文字序列視為可見狀態，但是隱藏狀態不再是單單的詞的位置（B/E/M/S），而變成了詞的位置與詞性的組合，如(B,v)(B,n)(S,n)等等。因此其初始概率向量、轉移概率矩陣和表現概率矩陣和上一節中所用的相比都要龐大的多，但是其本質以及運算步驟都沒有變化。
具體的工作流程如下圖所示。

jieba分詞中有兩種不同的用於關鍵詞抽取的演算法，分別為TextRank和TF-IDF。實現流程比較簡單，其核心在於演算法本身。下面簡單地畫出實現流程，具體的演算法可以參閱下一章內容。

TextRank方法默認篩選詞性，而TF-IDF方法模型不進行詞性篩選。

在本章中，將會簡單介紹相關的演算法知識，主要包括用於新詞發現的 隱馬爾科夫模型 和 維特比演算法 、用於關鍵詞提取的 TextRank 和 TF-IDF 演算法。

HMM即隱馬爾科夫模型，是一種基於馬爾科夫假設的統計模型。之所以為「隱」，是因為相較於馬爾科夫過程HMM有著未知的參數。在世界上，能看到的往往都是表象，而事物的真正狀態往往都隱含在表象之下，並且與表象有一定的關聯關系。

其中，S、O分別表示狀態序列與觀測序列。

如果讀者還對這部分內容心存疑問，不妨先往下閱讀，下面我們將以一個比較簡單的例子對HMM及解碼演算法進行實際說明與演示，在讀完下一小節之後再回來看這些式子，或許能夠恍然大悟。

下面以一個簡單的例子來進行闡述：
假設小明有一個網友小紅，小紅每天都會在朋友圈說明自己今天做了什麼，並且假設其僅受當天天氣的影響，而當天的天氣也只受前一天天氣的影響。
於小明而言，小紅每天做了什麼是可見狀態，而小紅那裡的天氣如何就是隱藏狀態，這就構成了一個HMM模型。一個HMM模型需要有五個要素：隱藏狀態集、觀測集、轉移概率、觀測概率和初始狀態概率。

即在第j個隱藏狀態時，表現為i表現狀態的概率。式中的n和m表示隱藏狀態集和觀測集中的數量。
本例中在不同的天氣下，小紅要做不同事情的概率也不同， 觀測概率 以表格的形式呈現如下：

其中

除此之外，還需要一個初始狀態概率向量π，它表示了觀測開始時，即t=0時，隱藏狀態的概率值。本例中我們指定 π={0,0,1} 。

至此，一個完整的 隱馬爾科夫模型 已經定義完畢了。

HMM一般由三類問題：
概率計算問題 ，即給定 A,B,π 和隱藏狀態序列，計算觀測序列的概率；
預測問題 ，也成解碼問題，已知 A,B,π 和觀測序列，求最優可能對應的狀態序列；
學習問題 ，已知觀測序列，估計模型的 A,B,π 參數，使得在該模型下觀測序列的概率最大，即用極大似然估計的方法估計參數。

在jieba分詞中所用的是解碼問題，所以此處對預測問題和學習問題不做深入探討，在下一小節中我們將繼續以本節中的例子為例，對解碼問題進行求解。

在jieba分詞中，採用了HMM進行新詞發現，它將每一個字表示為B/M/E/S分別代表出現在詞頭、詞中、詞尾以及單字成詞。將B/M/E/S作為HMM的隱藏狀態，而連續的各個單字作為觀測狀態，其任務即為利用觀測狀態預測隱藏狀態，並且其模型的 A,B,π 概率已經給出在文件中，所以這是一個標準的解碼問題。在jieba分詞中採用了 Viterbi演算法 來進行求解。

Viterbi演算法的基本思想是：如果最佳路徑經過一個點，那麼起始點到這個點的路徑一定是最短路徑，否則用起始點到這點更短的一條路徑代替這段，就會得到更短的路徑，這顯然是矛盾的；從起始點到結束點的路徑，必然要經過第n個時刻，假如第n個時刻有k個狀態，那麼最終路徑一定經過起始點到時刻n中k個狀態里最短路徑的點。
將時刻t隱藏狀態為i所有可能的狀態轉移路徑i1到i2的狀態最大值記為

下面我們繼續以上一節中的例子來對viterbi演算法進行闡述：
小明不知道小紅是哪裡人，他只能通過小紅每天的活動來推斷那裡的天氣。
假設連續三天，小紅的活動依次為：「睡覺-打游戲-逛街」，我們將據此計算最有可能的天氣情況。

表示第一天為雨天能夠使得第二天為晴天的概率最大（也就是說如果第二天是晴天在最短路徑上的話，第一天是雨天也一定在最短路徑上，參見上文中Viterbi演算法的基本思想）

此時已經到了最後的時刻，我們開始回溯。

其計算過程示意圖如下圖所示。

）的路徑。

TF-IDF（詞頻-逆文本頻率）是一種用以評估字詞在文檔中重要程度的統計方法。它的核心思想是，如果某個詞在一篇文章中出現的頻率即TF高，並且在其他文檔中出現的很少，則認為這個詞有很好的類別區分能力。

其中：

TextRank是一種用以關鍵詞提取的演算法，因為是基於PageRank的，所以先介紹PageRank。
PageRank通過互聯網中的超鏈接關系確定一個網頁的排名，其公式是通過一種投票的思想來設計的：如果我們計算網頁A的PageRank值，那麼我們需要知道哪些網頁鏈接到A，即首先得到A的入鏈，然後通過入鏈給網頁A進行投票來計算A的PR值。其公式為：

其中：

d為阻尼系數，取值范圍為0-1，代表從一定點指向其他任意點的概率，一般取值0.85。
將上式多次迭代即可直到收斂即可得到結果。

TextRank演算法基於PageRank的思想，利用投票機制對文本中重要成分進行排序。如果兩個詞在一個固定大小的窗口內共同出現過，則認為兩個詞之間存在連線。

公式與PageRank的基本相同。多次迭代直至收斂，即可得到結果。
在jieba分詞中，TextRank設定的詞窗口大小為5，將公式1迭代10次的結果作為最終權重的結果，而不一定迭代至收斂。

❸ python3怎麼使用結巴分詞

下面這個程序是對一個文本文件里的內容進行分詞的程序：test.py

[python] view plain

#!/usr/bin/python

#-*-encoding:utf-8-*-

importjieba#導入jieba模塊

defsplitSentence(inputFile,outputFile):

fin=open(inputFile,'r')#以讀的方式打開文件

fout=open(outputFile,'w')#以寫得方式打開文件

foreachLineinfin:

line=eachLine.strip().decode('utf-8','ignore')#去除每行首尾可能出現的空格，並轉為Unicode進行處理

wordList=list(jieba.cut(line))#用結巴分詞，對每行內容進行分詞

outStr=''

forwordinwordList:

outStr+=word

outStr+='/'

fout.write(outStr.strip().encode('utf-8')+' ')#將分詞好的結果寫入到輸出文件

fin.close()

fout.close()

splitSentence('myInput.txt','myOutput.txt')

寫完程序之後，在Linux重點輸入：python test.py即可運行程序進行分詞。

輸入的文件內容如下所示：

注意：第11行的 jieba.cut()返回的結構是一個可迭代的generator，可以用list(jieba.cut(...))轉化為list

❹ python jieba什麼用

用來分詞的，jieba 可以：

把一句話拆分成多個詞。
從一句話（一段話）中提取最重要的幾個關鍵詞。

最常用的功能應該就是這些吧，分詞之後結合 TF-IDF，就可以開始做搜索工具和相關推薦了。

❺ 怎麼是用python 語言使用結巴分詞呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出：

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處，「杭研」並沒有在詞典中，但是也被Viterbi演算法識別出來了)

閱讀全文

熱點內容

emobile7伺服器地址如何查看發布：2025-04-22 22:32:51 瀏覽：763

房間的秘密碼是什麼發布：2025-04-22 22:32:43 瀏覽：120

文件夾前面多了選擇框發布：2025-04-22 22:32:40 瀏覽：703

迅雷網ftp 發布：2025-04-22 22:30:02 瀏覽：622

滑鼠驅動源碼發布：2025-04-22 22:29:55 瀏覽：768

如何開發android應用發布：2025-04-22 22:18:55 瀏覽：880

醫保卡密碼從哪裡看發布：2025-04-22 22:14:34 瀏覽：260

地鐵逃生安卓更新後為什麼進不去發布：2025-04-22 22:13:49 瀏覽：443

java枚舉使用發布：2025-04-22 22:06:56 瀏覽：257

分解壓與K 發布：2025-04-22 22:06:40 瀏覽：835

jieba分詞python

與jieba分詞python相關的資訊