當前位置:首頁 » 編程語言 » php分詞

php分詞

發布時間: 2022-10-03 02:51:11

php 分詞,搜索引擎,技術

你好,很高興為你解答:

如果你僅僅是要把長句中的單詞分出來,那是很簡單的:

<?php
$str="GoogleTranslateforBusiness!";
$str=preg_replace("{.|,|;|:|'|"|?|!|<|>|(|)}","",$str);//移除所有標點符號
$arr=array_unique(explode("",$str));//以空格分割,並去重
var_mp($arr);
?>

以下是一段測試文本:

(asseeninCorPerl),"something"(inthiscase,output"Hi,I'maPHPscript!").<?phpand?>"PHPmode."
-,.,.,andthenthere'.
,.Don''sfeatures.Youcanjumpin,inashorttime,.
AlthoughPHP'sdevelopmentisfocusedonserver-sidescripting,youcandomuchmorewithit.Readon,andseemoreintheWhatcanPHPdo?section,.

輸出結果:

Instead,of,lots,commands,to,output,HTML,as,seen,in,C,or,Perl,PHP,pages,contain,with,embedded,code,that,does,something,this,case,Hi,Im,a,script,The,is,enclosed,special,start,and,end,processing,instructions,php,,allow,you,jump,into,out,modeWhat,distinguishes,from,like,client-side,JavaScript,the,executed,on,server,generating,which,then,sent,client,would,receive,results,running,but,not,know,what,underlying,was,You,can,even,configure,your,web,process,all,files,theres,really,no,way,users,tell,have,up,sleeveThe,best,things,using,are,it,extremely,simple,for,newcomer,offers,many,advanced,features,professional,programmer,Dont,be,afraid,reading,long,list,PHPs,short,time,writing,scripts,few,hoursAlthough,development,focused,server-side,scripting,do,much,more,Read,see,What,section,go,right,introctory,tutorial,if,only,interested,programming

使用sort()對其進行排序:

C,Dont,HTML,Hi,Im,Instead,JavaScript,PHP,PHPs,Perl,Read,The,What,You,a,advanced,afraid,all,allow,and,are,as,be,best,but,can,case,client,client-side,code,commands,configure,contain,development,distinguishes,do,does,embedded,enclosed,end,even,executed,extremely,features,few,files,focused,for,from,generating,go,have,hoursAlthough,if,in,instructions,interested,into,introctory,is,it,jump,know,like,list,long,lots,many,modeWhat,more,much,newcomer,no,not,of,offers,on,only,or,out,output,pages,php,process,processing,professional,programmer,programming,reading,really,receive,results,right,running,script,scripting,scripts,section,see,seen,sent,server,server-side,short,simple,sleeveThe,something,special,start,tell,that,the,then,theres,things,this,time,to,tutorial,underlying,up,users,using,was,way,web,what,which,with,would,writing,you,your

-----------------------------------
如有疑問歡迎追問!
滿意請點擊右上方【選為滿意回答】按鈕么么噠 o(∩_∩)o

Ⅱ php 提取中文後簡單分詞

$str="漢字一二3四5六七八,九十六七...";

$s1=array();//初始化儲存第二步結果的數組

//preg_match_all("/[x80-xff]+/",$str,$match);//此為GBK使用

preg_match_all("/[x{4e00}-x{9fa5}]{2,}+/u",$str,$match);//此為UTF-8使用

foreach($match[0]as$str1)//循環遍歷匹配到的漢字

{

$leng=iconv_strlen($str1,"UTF-8");//計算漢字其長度

for($i=0;$i<$leng-1;$i++)

{

$temp=mb_substr($str1,$i,2,"UTF-8");//將漢字切割長兩個字,得第一步結果

if(!in_array($temp,$s1))//去除重復,得第二步結果

$s1[]=$temp;//得到的漢字存入數組

}

}

//print_r($s1);//第一二步完成,得數組$s1,可列印查看結果

$s2=file_get_contents("21.txt");//將文件內所有字元讀取成一個字元串

$s2=iconv("","UTF-8",$s2);//將字元串轉碼,否則難免有亂碼

//echo$s2;//可輸出查看文件中的內容

$s="";//初始化最終結果的變數

foreach($s1as$j)//遍歷漢字對

{

if(preg_match("/".$j."/",$s2))//判斷該漢字對是否被包含於文件的文字中

$s.=(""==$s)?$j:"\".$j;//將結果合在$s中

}

echo$s;//得結果,可輸出查看或調用

若有疑問,可追問。

注釋詳細,希望能加分

Ⅲ jieba分詞如何只使用自定義詞典(php)

最復雜的就是這一行了:
(word for word in jieba.cut(line,HMM=True)if word not in stop and len(word.strip())>1)
jieba.cut(line)將一行字元串,分割成一個個單詞
word for word in jieba.cut(line,HMM=True)是一個Python的表理解,相當於for循環遍歷分割好的一個個單詞
if word not in stop and len(word.strip())>1這仍然是表理解的一部分,如果滿足條件,就把單詞加入到一個新的列表中,如果不滿足就丟棄,
word not in stop單詞不在停用詞當中
len(word.strip())>1單詞去掉首尾的空格、標點符號後的長度大於1。

Ⅳ 玉溪電腦培訓學校告訴你php自動提取文章關鍵字

現在很多web系統都用到了不少的自然語言處理技術來提高客戶體驗。



主要技術:


1.文章關鍵字提取.


2.相關文章(產品)推薦.


最近有不少網友問道,這里以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提.


基本分以下幾個步驟:


一.對文章進行分詞:


php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。


這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。


選擇的分詞器需要支持停止詞過濾。


二.統計詞條詞頻並且排序:


對一篇文章分詞後,統計每個詞條出現的次數。然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。


前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。


現在,很多web系統都用到了不少的自然語言處理技術來提高客戶體驗.主要技術:1.文章關鍵字提取.2.相關文章(產品)推薦.最近有不少網友問到,這里以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提。


基本分以下幾個步驟:


一.對文章進行分詞:php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。選擇的分詞器需要支持停止詞過濾。


二.統計詞條詞頻並且排序:對一篇文章分詞後,統計每個詞條出現的次數,然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。玉溪IT培訓http://www.kmbdqn.cn/建議前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。


Ⅳ 雲南IT培訓分享php自動提取文章關鍵字

現在很多web系統都用到了不少的自然語言處理技術來提高客戶體驗。



主要技術:


1. 文章關鍵字提取.


2. 相關文章(產品)推薦.


最近有不少網友問道, 這里以php為例子講解下php的"關鍵字提取"的實現, 同時這個也是實現"相關文章推薦"的前提.


基本分以下幾個步驟:


一. 對文章進行分詞:


php的中文分詞程序還是有不少的, 從前輩的scws, 到用純php實現的phpAnalysis, phpcws(phpcws)以及本人開發的robbe擴展。


這里的講解是使用"robbe分詞擴展"來進行分詞, robbe興許不是最好的,但一定是最快的。


選擇的分詞器需要支持停止詞過濾。


二. 統計詞條詞頻並且排序:


對一篇文章分詞後,統計每個詞條出現的次數。然後按照詞頻降序排序下, 你想要的結果在前面幾個詞中。


前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。


現在,很多web系統都用到了不少的自然語言處理技術來提高客戶體驗. 主要技術: 1. 文章關鍵字提取. 2. 相關文章(產品)推薦. 最近有不少網友問到,這里以php為例子講解下php的"關鍵字提取"的實現 ,同時這個也是實現"相關文章推薦"的前提。


基本分以下幾個步驟:


一. 對文章進行分詞:php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。選擇的分詞器需要支持停止詞過濾。


二. 統計詞條詞頻並且排序:對一篇文章分詞後,統計每個詞條出現的次數,然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。雲南IT培訓http://www.kmbdqn.com/建議前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。


Ⅵ 我想用PHP做一個聊天機器人,我調用別人的API實現了中文分詞,我要怎樣構建自己的資料庫

可以用SimSimi API:http://developer.simsimi.com/(不需要資料庫)。

根據提示進行注冊(注冊地址:http://developer.simsimi.com/signUp)。

登錄後訪問:http://developer.simsimi.com/apps,

點擊[Get a 7 days Trial Key],你就會獲得一個Trial Key(有效期為7天),然後直接

$key='';//你的TrialKey
$lang='';//語言
$msg='';//用戶說的話
$res=file_get_contents('http://sandbox.api.simsimi.com/request.p?key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

或者你要購買一個Paid Key,也可以。

在http://developer.simsimi.com/apps中,點擊[Get Paid Key],就可以購買。

只是代碼要改為(響應地址不同):

$key='';//你的PaidKey
$lang='';//語言
$msg='';//用戶說的話
$res=file_get_contents('http://api.simsimi.com/request.p??key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

就可以了。注意php.ini中,allow_url_fopen要為On:

allow_url_fopen=On

然後會返回一個JSON字元串,與下面類似:

{
"result":100,
"response":"SimSimi的回答",
"id":本次會話的標識符(int),
"msg":"響應描述"
}

相應描述與result的值相關。

100:OK.//成功
400:BadRequest.//參數錯誤
401:Unauthorized.//Key不存在
404:Notfound.//頁面不存在
500:ServerError.//伺服器出錯

參見:SimSimi API:http://developer.simsimi.com/api

謝謝!

Ⅶ PHP中文分詞 自動獲取關鍵詞介紹

復制代碼
代碼如下:
<?php
header("Content-Type:text/html;
charset=utf-8");
define('APP_ROOT',
str_replace('\\',
'/',
dirname(__FILE__)));
$test
=
'這里是一段中文測試代碼!';
function
get_tags_arr($title)
{
require(APP_ROOT.'/pscws4.class.php');
$pscws
=
new
PSCWS4();
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb');
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini');
$pscws->set_ignore(true);
$pscws->send_text($title);
$words
=
$pscws->get_tops(5);
$tags
=
array();
foreach
($words
as
$val)
{
$tags[]
=
$val['word'];
}
$pscws->close();
return
$tags;
}
print_r(get_tags_arr($test));
//============================================================
function
get_keywords_str($content){
require(APP_ROOT.'/phpanalysis.class.php');
PhpAnalysis::$loadInit
=
false;
$pa
=
new
PhpAnalysis('utf-8',
'utf-8',
false);
$pa->LoadDict();
$pa->SetSource($content);
$pa->StartAnalysis(
false
);
$tags
=
$pa->GetFinallyResult();
return
$tags;
}
print(get_keywords_str($test));
相關下載地址
SCWS

簡易中文分詞系統
SCWS
在概念上並無創新成分,採用的是自行採集的詞頻詞典,並輔以一定程度上的專有名稱、人名、地名、數字年代等規則集,經小范圍測試大概准確率在
90%
~
95%
之間,已能基本滿足一些中小型搜索引擎、關鍵字提取等場合運用。
SCWS
採用純
C
代碼開發,以
Unix-Like
OS
為主要平台環境,提供共享函數庫,方便植入各種現有軟體系統。此外它支持
GBK,UTF-8,BIG5
等漢字編碼,切詞效率高。
系統平台:Windows/Unix
開發語言:C
使用方式:PHP擴展
演示網址:http://www.ftphp.com/scws/demo.php
開源官網:http://www.ftphp.com/scws/
晴楓附註:作為PHP擴展,容易與現有的基於PHP架構的Web系統繼續集成,是其一大優勢。
PhpanAlysis -
PHP無組件分詞系統
PhpanAlysis分詞系統是基於字元串匹配的分詞方法
,這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字元串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配
和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。
系統平台:PHP環境
開發語言:PHP
使用方式:HTTP服務
演示網址:http://www.itgrass.com/phpanalysis/
開源官網:http://www.itgrass.com/phpanalysis/
晴楓附註:實現簡單,容易使用,能做一些簡單應用,但大數據量的計算效率不如前幾種。
試用了幾個系統,基本分詞功能都沒什麼問題,只是在個別一些詞的劃分上存在一些差異;對於詞性的確定,系統間有所不同。
http://www.jb51.net/codes/40139.html

Ⅷ php 一般使用什麼中文分詞擴展

Robbe是建立在Friso中文分詞器上的一個高性能php中文分詞擴展,除了提供了基本的分詞函數以外,還提供一些編碼轉換函。
Robbe完整版本(PHP測試程序, 開發幫助文檔, WinNT下php各版本的dll文件)下載:code.google.com/p/robbe

一. 關於Robbe:
robbe是建立在friso中文分詞上的一個高性能php中文分詞擴展。了解friso

1.目前最高版本:friso 1.6.0,【源碼無需修改即可在各平台下編譯運行】

2.mmseg四種過濾演算法,分詞准確率達到了98.41%。

3.詳細功能,請訪問friso官方首頁:friso [code.google.com/p/friso]

二. Robbe分詞速度:
測試環境:2.8GHZ/2G/Ubuntu

簡單模式:3.1M/秒

復雜模式:1.4M/秒

(因為php中的大量字元串的復制,性能比friso有些下降)。

Ⅸ php自動提取文章關鍵字

現在很多web系統都用到了不少的自然語言處理技術來提高客戶體驗。



主要技術:


1.文章關鍵字提取.


2.相關文章(產品)推薦.


最近有不少網友問道,這里以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提.


基本分以下幾個步驟:


一.對文章進行分詞:


php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。


這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。


選擇的分詞器需要支持停止詞過濾。


二.統計詞條詞頻並且排序:


對一篇文章分詞後,統計每個詞條出現的次數。然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。


前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。


現在,很多web系統都用到了不少的自然語言處理技術來提高客戶體驗.主要技術:1.文章關鍵字提取.2.相關文章(產品)推薦.最近有不少網友問到,這里以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提。


基本分以下幾個步驟:


一.對文章進行分詞:php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。選擇的分詞器需要支持停止詞過濾。


二.統計詞條詞頻並且排序:對一篇文章分詞後,統計每個詞條出現的次數,然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。雲南IT培訓http://www.kmbdqn.cn/建議前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。


Ⅹ 請教下,PHP文章標題的自動分詞(Tag)是怎麼做的

文章分詞需要程序來完成給你推薦個工具,你看看是不是你需要的分詞,這個是靈玖軟體推出的你可以找一下。

熱點內容
安卓上哪裡下大型游戲 發布:2024-12-23 15:10:58 瀏覽:189
明日之後目前適用於什麼配置 發布:2024-12-23 14:56:09 瀏覽:56
php全形半形 發布:2024-12-23 14:55:17 瀏覽:829
手機上傳助手 發布:2024-12-23 14:55:14 瀏覽:733
什麼樣的主機配置吃雞開全效 發布:2024-12-23 14:55:13 瀏覽:831
安卓我的世界114版本有什麼 發布:2024-12-23 14:42:17 瀏覽:711
vbox源碼 發布:2024-12-23 14:41:32 瀏覽:279
詩經是怎麼存儲 發布:2024-12-23 14:41:29 瀏覽:661
屏蔽視頻廣告腳本 發布:2024-12-23 14:41:24 瀏覽:420
php解析pdf 發布:2024-12-23 14:40:01 瀏覽:820