pythonwhoosh
⑴ 有没有人用python调用过teststand引擎
搜索引擎框架,有现成的whoosh。 这个引擎效率低。如果你把它放在hadoop上,会更慢。 如果是你自己写的引擎。(不包括爬虫)。 可以将分词部分放到hadoop里去处理。 不过建索引还是要rece完成。 python的分词效率比较低。不过如果你调用的是IT...
⑵ 有谁用过django-haystack中的solr或者whoosh
我用的是haystack+Whoosh实现的搜索功能,网上说solr是java写的,Xipian是c++写的,所以用起来比较麻烦,就选用了一个python本身写的Whoosh。确实方便...
P.S 这个文档是你说的simon Willison的翻译版,还不错:
http //blog csdn net/captain_fhb/article/details/2490294
⑶ 怎么是用python 语言 使用结巴分词 呢
Python代码
#encoding=utf-8
importjieba
seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式
seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默认模式
seg_list=jieba.cut("他来到了网易杭研大厦")
print",".join(seg_list)
输出:
FullMode:我/来/来到/到/北/北京/京/清/清华/清华大学/华/华大/大/大学/学
DefaultMode:我/来到/北京/清华大学
他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
⑷ 用python制作一个搜索引擎
可能帮不上忙。但别的语言有现成的。用java 的 solr做搜索,索引,分词。只需要配置xml,不用写代码。然后加上前端页面搜索就完成了。用python的scrapy可以做爬虫。你的需求我感觉简单做,都不需要索引,直接查数据库。模糊查询还有一个java的nutch,几乎不用写代码,直接爬虫+索引+界面 一套都实现好了,什么高亮,快照都有,直接用。不知道你能出多少钱?
⑸ 如何评价whoosh这个python搜索框架
Whoosh 是一个纯python实现的全文搜索组件。Whoosh不但功能完善,还非常的快。
Whoosh的作者是MattChaput,由Side Effects Software公司开发。项目的最初用于Houdini(Side Effects Software公司开发的3D动画软件)的在线帮助系统。Side Effects Software公司将该项目开源。
主要特性:
* 敏捷的API(Pythonic API)。
* 纯python实现,无二进制包。程序不会莫名其妙的崩溃。
* 按字段进行索引。
* 索引和搜索都非常的快 -- 是目前最快的纯python全文搜索引擎。
* 良好的构架,评分模块/分词模块/存储模块等各个模块都是可插拔的。
* 功能强大的查询语言(通过pyparsing实现功能)。
* 纯python实现的拼写检查(目前唯一的纯python拼写检查实现)
为啥选择Whoosh
* 纯python实现,省了编译二进制包的繁琐过程。
* python代码比java更容易读懂,而且用起来也更方便。(翻者注:这个容易引发口水)
* 在很多时候易用性比单纯的最求速度更重要。
Whoosh从其他的开源搜索引擎中获取了大量的灵感。 基础构建参考Lucene,使用KinoSearch的索引算法,部分评分算法来自Terrier,英文的词语态变化来自Minion.
⑹ python的whoosh中文检索如何使用
你好,下面是一个例子代码:
fromwhoosh.qparserimportQueryParser
ix=open_dir("index")
withix.searcher()assearcher:
query=QueryParser("name",ix.schema).parse(u'Chondromyces')
results=searcher.search(query)
forresultinresults:
printresult
#另外你可以考虑到stackoverflow上面去看看。