pythonwhoosh
⑴ 有沒有人用python調用過teststand引擎
搜索引擎框架,有現成的whoosh。 這個引擎效率低。如果你把它放在hadoop上,會更慢。 如果是你自己寫的引擎。(不包括爬蟲)。 可以將分詞部分放到hadoop里去處理。 不過建索引還是要rece完成。 python的分詞效率比較低。不過如果你調用的是IT...
⑵ 有誰用過django-haystack中的solr或者whoosh
我用的是haystack+Whoosh實現的搜索功能,網上說solr是java寫的,Xipian是c++寫的,所以用起來比較麻煩,就選用了一個python本身寫的Whoosh。確實方便...
P.S 這個文檔是你說的simon Willison的翻譯版,還不錯:
http //blog csdn net/captain_fhb/article/details/2490294
⑶ 怎麼是用python 語言 使用結巴分詞 呢
Python代碼
#encoding=utf-8
importjieba
seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式
seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式
seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)
輸出:
FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學
DefaultMode:我/來到/北京/清華大學
他,來到,了,網易,杭研,大廈(此處,「杭研」並沒有在詞典中,但是也被Viterbi演算法識別出來了)
⑷ 用python製作一個搜索引擎
可能幫不上忙。但別的語言有現成的。用java 的 solr做搜索,索引,分詞。只需要配置xml,不用寫代碼。然後加上前端頁面搜索就完成了。用python的scrapy可以做爬蟲。你的需求我感覺簡單做,都不需要索引,直接查資料庫。模糊查詢還有一個java的nutch,幾乎不用寫代碼,直接爬蟲+索引+界面 一套都實現好了,什麼高亮,快照都有,直接用。不知道你能出多少錢?
⑸ 如何評價whoosh這個python搜索框架
Whoosh 是一個純python實現的全文搜索組件。Whoosh不但功能完善,還非常的快。
Whoosh的作者是MattChaput,由Side Effects Software公司開發。項目的最初用於Houdini(Side Effects Software公司開發的3D動畫軟體)的在線幫助系統。Side Effects Software公司將該項目開源。
主要特性:
* 敏捷的API(Pythonic API)。
* 純python實現,無二進制包。程序不會莫名其妙的崩潰。
* 按欄位進行索引。
* 索引和搜索都非常的快 -- 是目前最快的純python全文搜索引擎。
* 良好的構架,評分模塊/分詞模塊/存儲模塊等各個模塊都是可插拔的。
* 功能強大的查詢語言(通過pyparsing實現功能)。
* 純python實現的拼寫檢查(目前唯一的純python拼寫檢查實現)
為啥選擇Whoosh
* 純python實現,省了編譯二進制包的繁瑣過程。
* python代碼比java更容易讀懂,而且用起來也更方便。(翻者註:這個容易引發口水)
* 在很多時候易用性比單純的最求速度更重要。
Whoosh從其他的開源搜索引擎中獲取了大量的靈感。 基礎構建參考Lucene,使用KinoSearch的索引演算法,部分評分演算法來自Terrier,英文的詞語態變化來自Minion.
⑹ python的whoosh中文檢索如何使用
你好,下面是一個例子代碼:
fromwhoosh.qparserimportQueryParser
ix=open_dir("index")
withix.searcher()assearcher:
query=QueryParser("name",ix.schema).parse(u'Chondromyces')
results=searcher.search(query)
forresultinresults:
printresult
#另外你可以考慮到stackoverflow上面去看看。