中文分词源码

发布时间: 2022-06-19 18:03:57

㈠最近在搞一个关于中文分词的东东。用到逆向最大匹配法（c#），有没有源代码，还有如何加入词典（望详细点）

好像有这个 lucene.net2.3.1.2+盘古分词可以去看一看

㈡中文分词技术java源代码，请高手帮助啊，兄弟在此谢谢了。

可以用反编译软件看

㈢高分求助~~求一段实现中文分词的源代码，分词后能将分词结果存入数据库

说说你用的环境，用什么语言编写？写到什么样的数据库？

㈣中文分词的常见项目

功能性能功能描述：1.新词自动识别
对词典中不存在的词，可以自动识别，对词典的依赖较小；
2.词性输出
分词结果中带有丰富的词性；
3.动态词性输出
分词结果中的词性并非固定，会根据不同的语境，赋予不同的词性；
4.特殊词识别
比如化学、药品等行业词汇，地名、品牌、媒体名等；
5.智能歧义解决
根据内部规则，智能解决常见分词歧义问题；
6.多种编码识别
自动识别各种单一编码，并支持混合编码；
7.数词量词优化
自动识别数量词；性能介绍：处理器：AMD Athlon II x2 250 3GHZ
单线程大于833KB/s，多线程安全。一个php函数实现中文分词。使分词更容易，使用如下图:
Paoding（庖丁解牛分词）基于Java的开源中文分词组件，提供lucene和solr 接口，具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。
高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。
采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
仅支持Java语言。 MMSEG4J基于Java的开源中文分词组件，提供lucene和solr 接口：
1．mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2．MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。盘古分词是一个基于.net 平台的开源中文分词组件，提供lucene(.net 版本) 和HubbleDotNet的接口
高效：Core Duo 1.8 GHz 下单线程分词速度为 390K 字符每秒
准确：盘古分词采用字典和统计结合的分词算法，分词准确率较高。
功能：盘古分词提供中文人名识别，简繁混合分词，多元分词，英文词根化，强制一元分词，词频优先分词，停用词过滤，英文专名提取等一系列功能。 jcseg是使用Java开发的一个中文分词器，使用流行的mmseg算法实现。
1。mmseg四种过滤算法，分词准确率达到了98.4%以上。
2。支持自定义词库。在lexicon文件夹下，可以随便添加/删除/更改词库和词库内容，并且对词库进行了分类，词库整合了《现代汉语词典》和cc-cedict辞典。
3。词条拼音和同义词支持，jcseg为所有词条标注了拼音，并且词条可以添加同义词集合，jcseg会自动将拼音和同义词加入到分词结果中。
4。中文数字和分数识别，例如："四五十个人都来了，三十分之一。"中的"四五十"和"三十分之一"，并且jcseg会自动将其转换为对应的阿拉伯数字。
5。支持中英混合词的识别。例如：B超，x射线。
6。支持基本单字单位的识别，例如2012年。
7。良好的英文支持，自动识别电子邮件，网址，分数，小数，百分数……。
8。智能圆角半角转换处理。
9。特殊字母识别：例如：Ⅰ，Ⅱ
10。特殊数字识别：例如：①，⑩
11。配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,‘标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。
jcseg佩带了jcseg.properties配置文档，使用文本编辑器就可以自主的编辑其选项，配置适合不同应用场合的分词应用。例如：最大匹配分词数，是否开启中文人名识别，是否载入词条拼音，是否载入词条同义词……。 friso是使用c语言开发的一个中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。并且提供了一个php中文分词扩展robbe。
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14M。】。
2。mmseg四种过滤算法，分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下，可以随便添加/删除/更改词库和词库词条，并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如：c语言，IC卡。
7。很好的英文支持，电子邮件，网址，小数，分数，百分数。
8。支持阿拉伯数字基本单字单位的识别，例如2012年，5吨，120斤。
9。自动英文圆角/半角，大写/小写转换。
并且具有很高的分词速度：简单模式：3.7M/秒，复杂模式：1.8M/秒。

㈤怎样制作中文分词词典

可以参考下IK分词器，开源的，可参考源码和词典制作方法
http://code.google.com/p/ik-analyzer/

㈥高分求c语言中文分词源代码

楼上有几位说的不对。处理中文并不等同于显示中文，任何汉字在内存中只不过也是一堆0101而已了，对于中文分词，完全可以不需要显示中文。

究竟什么叫做“c语言不支持中文”？显然有些人把语言和开发环境混为一谈了。c是一门语言，tc2是开发环境。即使tc2本身是dos下的软件，如果将它在windows非全屏方式下运行，一样可以显示中文的，不过屏幕边缘可能有乱码。tc2开发环境并不负责中文的解码，但是操作系统替他做了。

至于分词，只要最终结果不要求显示在屏幕上，有什么不能用c做的？多半情况是，分词程序运行在unix服务器上，接受客户端或服务器上的程序调用并且返回结果，这根本不要求显示。仅仅是和数据库、算法、内存打交道，搞什么“不支持中文”？

多研究些原理，少误人子弟吧

以上。
看不下去的老狼

㈦如何使用ictalas源码分词

这是一个中文分词系统，ICTALAS，非常经典的分词源码

㈧求Java语言的中文分词系统源码

楼上的大哥，人家问的是java语言的。你给回答盘古，您不知道盘古是.net特有的么？
楼主可以使用ik analyzer，是正向匹配算法，目前最新版本是2012版，可以支持最大粒度分词和最小粒度分词。并且算法不难，易二次开发。

㈨中文分词程序源代码

我编过，但是效果不怎么好。如果词典里词很多的时候，运算就比较慢。词如果很少呢，分词效果又不行。还有，一句话如果分成了很多段的话，速度又要下降很多。还有，排序是按照什么来排也很费脑筋。你可以去我的网站看看搜索，我是费了很大的劲的，可是效果不理想。www.map21.cn

阅读全文

热点内容

安卓微信区怎么登号发布：2025-04-22 18:08:30 浏览：839

彩票源码公司发布：2025-04-22 17:47:47 浏览：232

python图像识别pdf 发布：2025-04-22 17:33:13 浏览：520

手机鸿蒙系统如何转安卓发布：2025-04-22 17:31:44 浏览：891

批处理ftp上传文件夹发布：2025-04-22 17:29:26 浏览：789

android日程管理系统发布：2025-04-22 17:13:28 浏览：387

编译语言全家桶软件发布：2025-04-22 17:02:29 浏览：391

javascriptdes加密发布：2025-04-22 17:02:11 浏览：388

python线程参数发布：2025-04-22 17:01:01 浏览：319

卫生员什么配置发布：2025-04-22 17:00:02 浏览：221

中文分词源码

与中文分词源码相关的资讯