当前位置:首页 » 编程语言 » 中文分词php

中文分词php

发布时间: 2023-08-14 22:51:28

php 分词,搜索引擎,技术

你好,很高兴为你解答:

如果你仅仅是要把长句中的单词分出来,那是很简单的:

<?php
$str="GoogleTranslateforBusiness!";
$str=preg_replace("{.|,|;|:|'|"|?|!|<|>|(|)}","",$str);//移除所有标点符号
$arr=array_unique(explode("",$str));//以空格分割,并去重
var_mp($arr);
?>

以下是一段测试文本:

(asseeninCorPerl),"something"(inthiscase,output"Hi,I'maPHPscript!").<?phpand?>"PHPmode."
-,.,.,andthenthere'.
,.Don''sfeatures.Youcanjumpin,inashorttime,.
AlthoughPHP'sdevelopmentisfocusedonserver-sidescripting,youcandomuchmorewithit.Readon,andseemoreintheWhatcanPHPdo?section,.

输出结果:

Instead,of,lots,commands,to,output,HTML,as,seen,in,C,or,Perl,PHP,pages,contain,with,embedded,code,that,does,something,this,case,Hi,Im,a,script,The,is,enclosed,special,start,and,end,processing,instructions,php,,allow,you,jump,into,out,modeWhat,distinguishes,from,like,client-side,javaScript,the,executed,on,server,generating,which,then,sent,client,would,receive,results,running,but,not,know,what,underlying,was,You,can,even,configure,your,web,process,all,files,theres,really,no,way,users,tell,have,up,sleeveThe,best,things,using,are,it,extremely,simple,for,newcomer,offers,many,advanced,features,professional,programmer,Dont,be,afraid,reading,long,list,PHPs,short,time,writing,scripts,few,hoursAlthough,development,focused,server-side,scripting,do,much,more,Read,see,What,section,go,right,introctory,tutorial,if,only,interested,programming

使用sort()对其进行排序:

C,Dont,HTML,Hi,Im,Instead,JavaScript,PHP,PHPs,Perl,Read,The,What,You,a,advanced,afraid,all,allow,and,are,as,be,best,but,can,case,client,client-side,code,commands,configure,contain,development,distinguishes,do,does,embedded,enclosed,end,even,executed,extremely,features,few,files,focused,for,from,generating,go,have,hoursAlthough,if,in,instructions,interested,into,introctory,is,it,jump,know,like,list,long,lots,many,modeWhat,more,much,newcomer,no,not,of,offers,on,only,or,out,output,pages,php,process,processing,professional,programmer,programming,reading,really,receive,results,right,running,script,scripting,scripts,section,see,seen,sent,server,server-side,short,simple,sleeveThe,something,special,start,tell,that,the,then,theres,things,this,time,to,tutorial,underlying,up,users,using,was,way,web,what,which,with,would,writing,you,your

-----------------------------------
如有疑问欢迎追问!
满意请点击右上方【选为满意回答】按钮么么哒 o(∩_∩)o

② PHP中文分词应用到搜索的例子

中文分词,首先对您输入的搜索关键字进行分词,然后数据库中本来就存在一个索引表,就像个词典,然后当你进行搜索的时候就用你的词去和那本字典对比,得到索引结果表,然后通过id类似于偏移地址,得到真正的数据源地址,反馈回来,这是我平时做搜索的方法,希望对你有用。顺便插播个小广告bbs.45net.cn。有时间捧个人场。O(∩_∩)O~

③ 中文分词的常见项目

功能性能 功能描述:1.新词自动识别
对词典中不存在的词,可以自动识别,对词典的依赖较小;
2.词性输出
分词结果中带有丰富的词性;
3.动态词性输出
分词结果中的词性并非固定,会根据不同的语境,赋予不同的词性;
4.特殊词识别
比如化学、药品等行业词汇,地名、品牌、媒体名等;
5.智能歧义解决
根据内部规则,智能解决常见分词歧义问题;
6.多种编码识别
自动识别各种单一编码,并支持混合编码;
7.数词量词优化
自动识别数量词; 性能介绍:处理器:AMD Athlon II x2 250 3GHZ
单线程大于833KB/s,多线程安全。 一个PHP函数实现中文分词。使分词更容易,使用如下图:
Paoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。
采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
仅支持Java语言。 MMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。 盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口
高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。
功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。 jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。
1。mmseg四种过滤算法,分词准确率达到了98.4%以上。
2。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类,词库整合了《现代汉语词典》和cc-cedict辞典。
3。词条拼音和同义词支持,jcseg为所有词条标注了拼音,并且词条可以添加同义词集合,jcseg会自动将拼音和同义词加入到分词结果中。
4。中文数字和分数识别,例如:"四五十个人都来了,三十分之一。"中的"四五十"和"三十分之一",并且jcseg会自动将其转换为对应的阿拉伯数字。
5。支持中英混合词的识别。例如:B超,x射线。
6。支持基本单字单位的识别,例如2012年。
7。良好的英文支持,自动识别电子邮件,网址,分数,小数,百分数……。
8。智能圆角半角转换处理。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,‘标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。
jcseg佩带了jcseg.properties配置文档,使用文本编辑器就可以自主的编辑其选项,配置适合不同应用场合的分词应用。例如:最大匹配分词数,是否开启中文人名识别,是否载入词条拼音,是否载入词条同义词……。 friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php中文分词扩展robbe。
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M。】。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如:c语言,IC卡。
7。很好的英文支持,电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
并且具有很高的分词速度:简单模式:3.7M/秒,复杂模式:1.8M/秒。

④ 计算机毕业设计的源代码

之前看到很多同学都在找论文的源代码,我收藏了个网站,键盘论文网,上面有很多计算机专业的毕业设计,包含了对应的源代码,你参考下吧

之前的一篇文章,关于php中文分词技术的

摘要:
论文以站内中文全文搜索技术为背景,结合PHP(PHP:Hypertext Preprocessor)在实践领域中对Web应用的性能和内存消耗的要求,提出了一种纯PHP的以预索引字典为基础的轻量高效的站内中文搜索引擎的解决力案。

主要内容:通过索引器在数据库中保存生成的站内全文数据的带权重索引和词频权重索引,检索器基于此全文数据可以按多个类别的权重定义计算相关度得到搜索结果,表示器将结果高亮排序返回给搜索用户完成搜索功能。
一个基于海量字典的中文分词器作为中文数据处理的核心,将中英文及数字信息正确的切分并使得索引器可以进行按词汇权重索引,实现丰富灵活的搜索或索引相关功能。

文章针对PHP站内中文搜索技术中最突出的三个方面进行研究。

1)轻量高效的PHP中文搜索框架设计,并统一考虑了检索器和索引器的中文分词问题,使得索引和搜索时处理同样的分词结果。这样,在以较小的代价保证分词器90%以上准确度的同时,对不准确的分词结果具有很好的容忍度,保证了PHP应用的轻量性和可用性。对实践中对性能非常敏感的Web应用的设计开发有一定的借鉴意义。

2)对站内数据的搜索结果提出了一种多权重因素的相关度计算的方法,该方法在传统的关键字权重相关度的基础上,结合HTML标记进行权重识别和统计,并通过文档属性和统计数据等类别增加了用户可干涉的相关度权重因素,有力地保障了搜索结果的有效性,提升了用户的站内搜索体验。

3)为了提升中文分词的质量,并同时解决PHP应用在处理海量词典时的性能和内存消耗的问题,本文通过优化的分词匹配算法和创新性地在PHP中文分词中使用B-Tree预索引词典,以数量达53万多个的UTF-8简繁体中文词汇在保证了较好的分词结果的同时保持了中文搜索的轻量性和高效性。并在实践中证明具有良好的可用性和通用性,具有较低的算法时间复杂度。
创新点:
本文结合PHP技术以及搜索引擎、中文分词等理论背景,对PHP领域内实现轻量高效的站内中文搜索提出了行之有效的分析解决方法。
随着Web应用的持续发展和PHP普遍应用、中文信息处理需求的持续增长,本文所论述的方法对PHP相关范围内的中文搜索或索引相关功能都有一定的指导意义。

同时,随着先进的搜索引擎技术模型的演进,本文所做的分析研究为中文站内搜索的普适性应用进行了一项有意义的探索。

你参考下吧

⑤ php 一般使用什么中文分词扩展

Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展,除了提供了基本的分词函数以外,还提供一些编码转换函。
Robbe完整版本(PHP测试程序, 开发帮助文档, WinNT下php各版本的dll文件)下载:code.google.com/p/robbe

一. 关于Robbe:
robbe是建立在friso中文分词上的一个高性能php中文分词扩展。了解friso

1.目前最高版本:friso 1.6.0,【源码无需修改即可在各平台下编译运行】

2.mmseg四种过滤算法,分词准确率达到了98.41%。

3.详细功能,请访问friso官方首页:friso [code.google.com/p/friso]

二. Robbe分词速度:
测试环境:2.8GHZ/2G/Ubuntu

简单模式:3.1M/秒

复杂模式:1.4M/秒

(因为php中的大量字符串的复制,性能比friso有些下降)。

⑥ 请教下,PHP文章标题的自动分词(Tag)是怎么做的

文章分词需要程序来完成给你推荐个工具,你看看是不是你需要的分词,这个是灵玖软件推出的你可以找一下。

热点内容
python3graphics 发布:2025-02-05 21:36:57 浏览:511
为什么英雄联盟一个服务器进不去 发布:2025-02-05 21:36:12 浏览:182
服务器搭建网站开发教材 发布:2025-02-05 21:31:57 浏览:567
pythonrose 发布:2025-02-05 21:31:46 浏览:923
php数组从小到大排序 发布:2025-02-05 21:26:01 浏览:324
单片机存储器扩展 发布:2025-02-05 21:17:35 浏览:966
sqler图 发布:2025-02-05 21:10:58 浏览:630
网络编程android 发布:2025-02-05 21:05:49 浏览:346
python时间毫秒数 发布:2025-02-05 20:51:32 浏览:331
clash安卓如何切换节点 发布:2025-02-05 20:48:20 浏览:890