检索系统源码
‘壹’ 关于搜索引擎
概念:
搜索引擎是WWW环境中的信息检索系统。它包括目录服务和关键字检索两种服务方式。目录服务可以帮助用户按一定的结构条理清晰的找到自己感兴趣的内容。关键字检索服务可以查找包含一个或多个特定关键字或词组的WWW站点。目前着名的搜索引擎服务商如:www.google.com、www.yahoo.com等。
分类:
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内着名的有网络(Bai)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
■ 目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他着名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
■ 元搜索引擎 (META Search Engine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。着名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
除上述三大类引擎外,还有以下几种非主流形式:
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
搜索的技巧:
搜索引擎和目录指南不同,靠的不是人而是机器,所以两者的游戏规则完全不同。前边讲的关于目录指南和 yahoo! 的锦囊妙计,如果纯粹从取得最佳排位的目标考虑,对搜索引擎没太大的参考价值。搜索引擎乃机器,靠一系列 html
标签控制。决定你网站搜索引擎搜索结果的,是关键词,是以关键词为核心的一系列技术参数。如果你的网站很出色,再能把握搜索引擎的运行规律,就能如虎添翼,使你的网上营销工作事半功倍。当然,如果你的经营本身毛病很多、网站拙劣,搜索引擎的功夫做得再好,也是舍本逐末,徒然招来一些访问量,于你的终极目标---盈利---无多大助益。
好,我们先初步了解一下搜索引擎的工作机制。大多数的搜索引擎,靠一种“位址/频次”的技术,来确定你的网站是否与网友查询的关键词关联、关联程度有多高,从而决定你的网站在搜索结果页面的排位。 也有部分搜索引擎不须你来注册,它会自动地到整个网上去抓取页面。不过,最好别指望这类工具,因为大海捞针,你的网站遭“宠幸”的概率有几何? 纯粹从提高搜索引擎命中率的目标出发,我们将集中讨论三个方面的技巧:
(1)标题;
(2)meta 标签;
(3)整个网站的关键词配置。其他的技巧和细节,我们也会一并涉及
(a)标题 搜索引擎首先要判断的,是你的标题与人家键入的关键词有无关联。我们这里所说的“标题”不是你网站的名称,是你各网页的名称,它是出现在浏览器顶上方蓝条里的文字(居左),通常被大家忽略:人家忽略看,做网页的人忽略把它做好,有的根本就空着。从营销的角度看,这实在是浪费资源!因为,就是这么个不起眼的“标题”,却是搜索引擎找你网页的路标或者招牌。这个路标指示得当,就会大利于你的排位。标题的基本措辞手法,就是尽量使用关键词。举个例子来说明吧:你的主页名为某某公司,你的主营业务是农机销售。如果你用你的公司名作为网页标题,搜索引擎会把你做“公司”考虑但在“农机”中不会有你的位置。所以,你的标题可以做成“小型农业机械设备供应商:某某公司”,
在 html 源码中就是: <title>小型农业机械设备供应商:某某公司</title>
这样,你的标题中就有了 6 个常用的关键词:小型、农业、机械、设备、供应商、公司。那么你会说,如此看来,公司名称在标题里就没有用了?有用。至少它带着个“公司”,虽然很少有人敲“公司”这么泛的关键词来查,但很多人会联着个界定性关键词一起查,比如“营销公司”、“电影公司”等等,你有“公司”就有可能跳出来。而且,也许更重要的是,如果有人把你的网站做了书签,下次人家在查询时,一看公司名就能知道这是你的网站。
如果你的网站主要面向海外市场,用的是英文、在英文搜索引擎上注册,还可以考虑在前面加上一个“a”,即“a small agriculture farming equipment provider: xyz company”。因为英文搜索引擎的结果排位按字母顺序走,加“a”会使你的位置靠前。
为增加你网站的曝光率,你可以将每个网页的标题做得互不相同,然后把每个页面都提交给搜索引擎。这样,如果你有 30 个页面,你就可以有 30 次被检索到的机会。为什么要把每个标题做得互不相同呢?因为一方面可制造通过不同关键词被检索到的机会,另外,有的较“智能”的搜索引擎,如果反复看到标题等指标相同的网页,会视为不良重注,而不再理睬你。 搜索引擎注册技巧:meta 标签之关键词(b)meta 标签 什么是“meta 标签”呢?它位于你网页源码开始部分.
搜索网站推荐:
google, , yahoo
‘贰’ java的代码分享网站有哪些
网络知道,搜索一下关键字, 绝对比外面都强,因为回答都详细解释了,而外面的代码几乎没有注释,不适合新手,比如搜电商系统,就会有很多回答。
‘叁’ 怎么做一个站内搜索
本经验以Java语言为例,首先我们打开Java的IDE,这里以常用的Eclipse软件为例,在一个创建好了的Java工程中,或者自己另行创建一个新的java工程项目,通过点击File-New-Class,即可新建一个普通的Java类
‘肆’ 希望有一个信息检索系统。java的完整源码,
源码不可能给你,就算你交钱,也只会给你编译好的。
‘伍’ 预求基于形状颜色的图象检索系统vc源码
200分都不一定有人解决,
说深点,这已经是图形图像处理的高级境界了
1)图片的复杂度:黑白,彩色
2)提取图像的特征,是有外部描述的,还是编程去分析图像数据?
3)有特征库吗?
4)要求速度吗,图片的数量大概多少
5)都包括什么形状啊
6)能出多少钱啊
这个做得好的,可以立项,好多领域急于要这样的成果!!
‘陆’ 跪求《三维模型检索系统》源程序和源代码,请好心人帮忙!
你不会,是,要企业级的吧?!
一般编程的都很忙的!像我兄弟,培训啊,什么任务啊,还有自学什么什么的!
像我这种只是有点爱好的非职业的,弄不出那么高级的,顶多弄个模型查看器,而且模型全线条的,再深入一点就是面的了,呵呵…
‘柒’ 有人知道搜索引擎的简单原理吗,提供点源码吧.我很感兴趣.
给你讲个有名的技术
最着名的并且获得了专利的当然就是google的PR技术
大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo! 和同时代的其它搜索引擎都存在一个共同的问题: 收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。
Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-)如果大家都说在 Google 公司的那个是真的,那么他就是真的。
在互联网上,如果一个网页被很多其它很多网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到本身网页的排名,这不成了先有鸡还是先有蛋的问题了吗?
Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。
理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。
我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以在用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。
网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。
今天,Google 搜索引擎比最初的复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。