檢索系統源碼
『壹』 關於搜索引擎
概念:
搜索引擎是WWW環境中的信息檢索系統。它包括目錄服務和關鍵字檢索兩種服務方式。目錄服務可以幫助用戶按一定的結構條理清晰的找到自己感興趣的內容。關鍵字檢索服務可以查找包含一個或多個特定關鍵字或片語的WWW站點。目前著名的搜索引擎服務商如:www.google.com、www.yahoo.com等。
分類:
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有網路(Bai)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的資料庫中,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱「蜘蛛」(Spider)程序或「機器人」(Robot)程序,並自建網頁資料庫,搜索結果直接從自身的資料庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的資料庫,並按自定的格式排列搜索結果,如Lycos引擎。
■ 目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。
■ 元搜索引擎 (META Search Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它「集合式」搜索引擎更確切些。
2、門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他引擎。
3、免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
搜索的技巧:
搜索引擎和目錄指南不同,靠的不是人而是機器,所以兩者的游戲規則完全不同。前邊講的關於目錄指南和 yahoo! 的錦囊妙計,如果純粹從取得最佳排位的目標考慮,對搜索引擎沒太大的參考價值。搜索引擎乃機器,靠一系列 html
標簽控制。決定你網站搜索引擎搜索結果的,是關鍵詞,是以關鍵詞為核心的一系列技術參數。如果你的網站很出色,再能把握搜索引擎的運行規律,就能如虎添翼,使你的網上營銷工作事半功倍。當然,如果你的經營本身毛病很多、網站拙劣,搜索引擎的功夫做得再好,也是捨本逐末,徒然招來一些訪問量,於你的終極目標---盈利---無多大助益。
好,我們先初步了解一下搜索引擎的工作機制。大多數的搜索引擎,靠一種「位址/頻次」的技術,來確定你的網站是否與網友查詢的關鍵詞關聯、關聯程度有多高,從而決定你的網站在搜索結果頁面的排位。 也有部分搜索引擎不須你來注冊,它會自動地到整個網上去抓取頁面。不過,最好別指望這類工具,因為大海撈針,你的網站遭「寵幸」的概率有幾何? 純粹從提高搜索引擎命中率的目標出發,我們將集中討論三個方面的技巧:
(1)標題;
(2)meta 標簽;
(3)整個網站的關鍵詞配置。其他的技巧和細節,我們也會一並涉及
(a)標題 搜索引擎首先要判斷的,是你的標題與人家鍵入的關鍵詞有無關聯。我們這里所說的「標題」不是你網站的名稱,是你各網頁的名稱,它是出現在瀏覽器頂上方藍條里的文字(居左),通常被大家忽略:人家忽略看,做網頁的人忽略把它做好,有的根本就空著。從營銷的角度看,這實在是浪費資源!因為,就是這么個不起眼的「標題」,卻是搜索引擎找你網頁的路標或者招牌。這個路標指示得當,就會大利於你的排位。標題的基本措辭手法,就是盡量使用關鍵詞。舉個例子來說明吧:你的主頁名為某某公司,你的主營業務是農機銷售。如果你用你的公司名作為網頁標題,搜索引擎會把你做「公司」考慮但在「農機」中不會有你的位置。所以,你的標題可以做成「小型農業機械設備供應商:某某公司」,
在 html 源碼中就是: <title>小型農業機械設備供應商:某某公司</title>
這樣,你的標題中就有了 6 個常用的關鍵詞:小型、農業、機械、設備、供應商、公司。那麼你會說,如此看來,公司名稱在標題里就沒有用了?有用。至少它帶著個「公司」,雖然很少有人敲「公司」這么泛的關鍵詞來查,但很多人會聯著個界定性關鍵詞一起查,比如「營銷公司」、「電影公司」等等,你有「公司」就有可能跳出來。而且,也許更重要的是,如果有人把你的網站做了書簽,下次人家在查詢時,一看公司名就能知道這是你的網站。
如果你的網站主要面向海外市場,用的是英文、在英文搜索引擎上注冊,還可以考慮在前面加上一個「a」,即「a small agriculture farming equipment provider: xyz company」。因為英文搜索引擎的結果排位按字母順序走,加「a」會使你的位置靠前。
為增加你網站的曝光率,你可以將每個網頁的標題做得互不相同,然後把每個頁面都提交給搜索引擎。這樣,如果你有 30 個頁面,你就可以有 30 次被檢索到的機會。為什麼要把每個標題做得互不相同呢?因為一方面可製造通過不同關鍵詞被檢索到的機會,另外,有的較「智能」的搜索引擎,如果反復看到標題等指標相同的網頁,會視為不良重注,而不再理睬你。 搜索引擎注冊技巧:meta 標簽之關鍵詞(b)meta 標簽 什麼是「meta 標簽」呢?它位於你網頁源碼開始部分.
搜索網站推薦:
google, , yahoo
『貳』 java的代碼分享網站有哪些
網路知道,搜索一下關鍵字, 絕對比外面都強,因為回答都詳細解釋了,而外面的代碼幾乎沒有注釋,不適合新手,比如搜電商系統,就會有很多回答。
『叄』 怎麼做一個站內搜索
本經驗以Java語言為例,首先我們打開Java的IDE,這里以常用的Eclipse軟體為例,在一個創建好了的Java工程中,或者自己另行創建一個新的java工程項目,通過點擊File-New-Class,即可新建一個普通的Java類
『肆』 希望有一個信息檢索系統。java的完整源碼,
源碼不可能給你,就算你交錢,也只會給你編譯好的。
『伍』 預求基於形狀顏色的圖象檢索系統vc源碼
200分都不一定有人解決,
說深點,這已經是圖形圖像處理的高級境界了
1)圖片的復雜度:黑白,彩色
2)提取圖像的特徵,是有外部描述的,還是編程去分析圖像數據?
3)有特徵庫嗎?
4)要求速度嗎,圖片的數量大概多少
5)都包括什麼形狀啊
6)能出多少錢啊
這個做得好的,可以立項,好多領域急於要這樣的成果!!
『陸』 跪求《三維模型檢索系統》源程序和源代碼,請好心人幫忙!
你不會,是,要企業級的吧?!
一般編程的都很忙的!像我兄弟,培訓啊,什麼任務啊,還有自學什麼什麼的!
像我這種只是有點愛好的非職業的,弄不出那麼高級的,頂多弄個模型查看器,而且模型全線條的,再深入一點就是面的了,呵呵…
『柒』 有人知道搜索引擎的簡單原理嗎,提供點源碼吧.我很感興趣.
給你講個有名的技術
最著名的並且獲得了專利的當然就是google的PR技術
大家可能聽說過,Google 革命性的發明是它名為 「Page Rank」 的網頁排名演算法,這項技術徹底解決了搜索結果排序的問題。其實最先試圖給互聯網上的眾多網站排序的並不是 Google。Yahoo! 公司最初第一個用目錄分類的方式讓用戶通過互聯網檢索信息,但由於當時計算機容量和速度的限制,當時的 Yahoo! 和同時代的其它搜索引擎都存在一個共同的問題: 收錄的網頁太少,而且只能對網頁中常見內容相關的實際用詞進行索引。那時,用戶很難找到很相關信息。我記得 1999 年以前查找一篇論文,要換好幾個搜索引擎。後來 DEC 公司開發了 AltaVista 搜索引擎,只用一台 ALPHA 伺服器,卻收錄了比以往引擎都多的網頁,而且對裡面的每個詞進行索引。AltaVista 雖然讓用戶搜索到大量結果,但大部分結果卻與查詢不太相關,有時找想看的網頁需要翻好幾頁。所以最初的 AltaVista 在一定程度上解決了覆蓋率的問題,但不能很好地對結果進行排序。
Google 的 「Page Rank」 (網頁排名)是怎麼回事呢?其實簡單說就是民主表決。打個比方,假如我們要找李開復博士,有一百個人舉手說自己是李開復。那麼誰是真的呢?也許有好幾個真的,但即使如此誰又是大家真正想找的呢?:-)如果大家都說在 Google 公司的那個是真的,那麼他就是真的。
在互聯網上,如果一個網頁被很多其它很多網頁所鏈接,說明它受到普遍的承認和信賴,那麼它的排名就高。這就是Page Rank 的核心思想。 當然 Google 的 Page Rank 演算法實際上要復雜得多。比如說,對來自不同網頁的鏈接對待不同,本身網頁排名高的鏈接更可靠,於是給這些鏈接予較大的權重。Page Rank 考慮了這個因素,可是現在問題又來了,計算搜索結果的網頁排名過程中需要用到本身網頁的排名,這不成了先有雞還是先有蛋的問題了嗎?
Google 的兩個創始人拉里•佩奇 (Larry Page )和謝爾蓋•布林 (Sergey Brin) 把這個問題變成了一個二維矩陣相乘的問題,並且用迭代的方法解決了這個問題。他們先假定所有網頁的排名是相同的,並且根據這個初始值,算出各個網頁的第一次迭代排名,然後再根據第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種演算法都保證了網頁排名的估計值能收斂到他們的真實值。值得一提的事,這種演算法是完全沒有任何人工干預的。
理論問題解決了,又遇到實際問題。因為互聯網上網頁的數量是巨大的,上面提到的二維矩陣從理論上講有網頁數目平方之多個元素。如果我們假定有十億個網頁,那麼這個矩陣 就有一百億億個元素。這樣大的矩陣相乘,計算量是非常大的。拉里和謝爾蓋兩人利用稀疏矩陣計算的技巧,大大的簡化了計算量,並實現了這個網頁排名演算法。今天 Google 的工程師把這個演算法移植到並行的計算機中,進一步縮短了計算時間,使網頁更新的周期比以前短了許多。
我來 Google 後,拉里 (Larry) 在和我們幾個新員工座談時,講起他當年和謝爾蓋(Sergey) 是怎麼想到網頁排名演算法的。他說:"當時我們覺得整個互聯網就像一張大的圖 (Graph),每個網站就像一個節點,而每個網頁的鏈接就像一個弧。我想,互聯網可以用一個圖或者矩陣描述,我也許可以在用這個發現做個博士論文。" 他和謝爾蓋就這樣發明了 Page Rank 的演算法。
網頁排名的高明之處在於它把整個互聯網當作了一個整體對待。它無意識中符合了系統論的觀點。相比之下,以前的信息檢索大多把每一個網頁當作獨立的個體對待,很多人當初只注意了網頁內容和查詢語句的相關性,忽略了網頁之間的關系。
今天,Google 搜索引擎比最初的復雜、完善了許多。但是網頁排名在 Google 所有演算法中依然是至關重要的。在學術界, 這個演算法被公認為是文獻檢索中最大的貢獻之一,並且被很多大學引入了信息檢索課程 (Information Retrieval) 的教程。