中文分詞源碼

發布時間: 2022-06-19 18:03:57

㈠最近在搞一個關於中文分詞的東東。用到逆向最大匹配法（c#），有沒有源代碼，還有如何加入詞典（望詳細點）

好像有這個 lucene.net2.3.1.2+盤古分詞可以去看一看

㈡中文分詞技術java源代碼，請高手幫助啊，兄弟在此謝謝了。

可以用反編譯軟體看

㈢高分求助~~求一段實現中文分詞的源代碼，分詞後能將分詞結果存入資料庫

說說你用的環境，用什麼語言編寫？寫到什麼樣的資料庫？

㈣中文分詞的常見項目

功能性能功能描述：1.新詞自動識別
對詞典中不存在的詞，可以自動識別，對詞典的依賴較小；
2.詞性輸出
分詞結果中帶有豐富的詞性；
3.動態詞性輸出
分詞結果中的詞性並非固定，會根據不同的語境，賦予不同的詞性；
4.特殊詞識別
比如化學、葯品等行業詞彙，地名、品牌、媒體名等；
5.智能歧義解決
根據內部規則，智能解決常見分詞歧義問題；
6.多種編碼識別
自動識別各種單一編碼，並支持混合編碼；
7.數詞量詞優化
自動識別數量詞；性能介紹：處理器：AMD Athlon II x2 250 3GHZ
單線程大於833KB/s，多線程安全。一個php函數實現中文分詞。使分詞更容易，使用如下圖:
Paoding（庖丁解牛分詞）基於Java的開源中文分片語件，提供lucene和solr 介面，具有極高效率和高擴展性。引入隱喻，採用完全的面向對象設計，構思先進。
高效率：在PIII 1G內存個人機器上，1秒可准確分詞 100萬漢字。
採用基於不限制個數的詞典文件對文章進行有效切分，使能夠將對詞彙分類定義。
能夠對未知的詞彙進行合理解析。
僅支持Java語言。 MMSEG4J基於Java的開源中文分片語件，提供lucene和solr 介面：
1．mmseg4j 用 Chih-Hao Tsai 的 MMSeg 演算法實現的中文分詞器，並實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2．MMSeg 演算法有兩種分詞方法：Simple和Complex，都是基於正向最大匹配。Complex 加了四個規則過慮。官方說：詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞演算法。盤古分詞是一個基於.net 平台的開源中文分片語件，提供lucene(.net 版本) 和HubbleDotNet的介面
高效：Core Duo 1.8 GHz 下單線程分詞速度為 390K 字元每秒
准確：盤古分詞採用字典和統計結合的分詞演算法，分詞准確率較高。
功能：盤古分詞提供中文人名識別，簡繁混合分詞，多元分詞，英文詞根化，強制一元分詞，詞頻優先分詞，停用詞過濾，英文專名提取等一系列功能。 jcseg是使用Java開發的一個中文分詞器，使用流行的mmseg演算法實現。
1。mmseg四種過濾演算法，分詞准確率達到了98.4%以上。
2。支持自定義詞庫。在lexicon文件夾下，可以隨便添加/刪除/更改詞庫和詞庫內容，並且對詞庫進行了分類，詞庫整合了《現代漢語詞典》和cc-cedict辭典。
3。詞條拼音和同義詞支持，jcseg為所有詞條標注了拼音，並且詞條可以添加同義詞集合，jcseg會自動將拼音和同義詞加入到分詞結果中。
4。中文數字和分數識別，例如："四五十個人都來了，三十分之一。"中的"四五十"和"三十分之一"，並且jcseg會自動將其轉換為對應的阿拉伯數字。
5。支持中英混合詞的識別。例如：B超，x射線。
6。支持基本單字單位的識別，例如2012年。
7。良好的英文支持，自動識別電子郵件，網址，分數，小數，百分數……。
8。智能圓角半形轉換處理。
9。特殊字母識別：例如：Ⅰ，Ⅱ
10。特殊數字識別：例如：①，⑩
11。配對標點內容提取：例如：最好的Java書《java編程思想》，『暢想杯黑客技術大賽』，被《,『,「,『標點標記的內容。
12。智能中文人名識別。中文人名識別正確率達94%以上。
jcseg佩帶了jcseg.properties配置文檔，使用文本編輯器就可以自主的編輯其選項，配置適合不同應用場合的分詞應用。例如：最大匹配分詞數，是否開啟中文人名識別，是否載入詞條拼音，是否載入詞條同義詞……。 friso是使用c語言開發的一個中文分詞器，使用流行的mmseg演算法實現。完全基於模塊化設計和實現，可以很方便的植入到其他程序中，例如：MySQL，PHP等。並且提供了一個php中文分詞擴展robbe。
1。只支持UTF-8編碼。【源碼無需修改就能在各種平台下編譯使用，載入完20萬的詞條，內存佔用穩定為14M。】。
2。mmseg四種過濾演算法，分詞准確率達到了98.41%。
3。支持自定義詞庫。在dict文件夾下，可以隨便添加/刪除/更改詞庫和詞庫詞條，並且對詞庫進行了分類。
4。詞庫使用了friso的Java版本jcseg的簡化詞庫。
5。支持中英混合詞的識別。例如：c語言，IC卡。
7。很好的英文支持，電子郵件，網址，小數，分數，百分數。
8。支持阿拉伯數字基本單字單位的識別，例如2012年，5噸，120斤。
9。自動英文圓角/半形，大寫/小寫轉換。
並且具有很高的分詞速度：簡單模式：3.7M/秒，復雜模式：1.8M/秒。

㈤怎樣製作中文分詞詞典

可以參考下IK分詞器，開源的，可參考源碼和詞典製作方法
http://code.google.com/p/ik-analyzer/

㈥高分求c語言中文分詞源代碼

樓上有幾位說的不對。處理中文並不等同於顯示中文，任何漢字在內存中只不過也是一堆0101而已了，對於中文分詞，完全可以不需要顯示中文。

究竟什麼叫做「c語言不支持中文」？顯然有些人把語言和開發環境混為一談了。c是一門語言，tc2是開發環境。即使tc2本身是dos下的軟體，如果將它在windows非全屏方式下運行，一樣可以顯示中文的，不過屏幕邊緣可能有亂碼。tc2開發環境並不負責中文的解碼，但是操作系統替他做了。

至於分詞，只要最終結果不要求顯示在屏幕上，有什麼不能用c做的？多半情況是，分詞程序運行在unix伺服器上，接受客戶端或伺服器上的程序調用並且返回結果，這根本不要求顯示。僅僅是和資料庫、演算法、內存打交道，搞什麼「不支持中文」？

多研究些原理，少誤人子弟吧

以上。
看不下去的老狼

㈦如何使用ictalas源碼分詞

這是一個中文分詞系統，ICTALAS，非常經典的分詞源碼

㈧求Java語言的中文分詞系統源碼

樓上的大哥，人家問的是java語言的。你給回答盤古，您不知道盤古是.net特有的么？
樓主可以使用ik analyzer，是正向匹配演算法，目前最新版本是2012版，可以支持最大粒度分詞和最小粒度分詞。並且演算法不難，易二次開發。

㈨中文分詞程序源代碼

我編過，但是效果不怎麼好。如果詞典里詞很多的時候，運算就比較慢。詞如果很少呢，分詞效果又不行。還有，一句話如果分成了很多段的話，速度又要下降很多。還有，排序是按照什麼來排也很費腦筋。你可以去我的網站看看搜索，我是費了很大的勁的，可是效果不理想。www.map21.cn

閱讀全文

熱點內容

js壓縮base64 發布：2025-04-22 19:29:53 瀏覽：198

颶風加密工具發布：2025-04-22 19:27:50 瀏覽：639

發票江蘇伺服器地址發布：2025-04-22 19:21:29 瀏覽：33

編譯器路徑錯誤發布：2025-04-22 18:53:30 瀏覽：37

王者榮耀伺服器地址被屏蔽發布：2025-04-22 18:46:25 瀏覽：636

光遇的安卓和蘋果有什麼區別發布：2025-04-22 18:46:23 瀏覽：420

b編譯執行發布：2025-04-22 18:44:13 瀏覽：456

怎麼打開ftp服務發布：2025-04-22 18:34:42 瀏覽：149

二級密碼什麼時候自動消失發布：2025-04-22 18:32:57 瀏覽：383

python3withopen 發布：2025-04-22 18:27:57 瀏覽：682

中文分詞源碼

與中文分詞源碼相關的資訊