抓取存儲
Ⅰ 搜索引擎工作原理
搜索引擎的工作原理總共有四步:
第一步:爬行,搜索引擎是通過一種特定規律的軟體跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈
接,所以稱為爬行。
第二步:抓取存儲,搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,並將爬行的數據存入原始頁面資料庫。
第三步:預處理,搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
第四步:排名,用戶在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。
不同的搜索引擎查出來的結果是根據引擎內部資料所決定的。比如:某一種搜索引擎沒有這種資料,您就查詢不到結果。
(1)抓取存儲擴展閱讀:
定義
一個搜索引擎由搜索器、索引器、檢索器和用戶接四個部分組成。搜索器的功能是在互聯網中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter
Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用文件名查找文件的系統,於是便有了Archie。
Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載該文件 。
由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜索工具。
參考資料來源:網路-搜索引擎
Ⅱ 搜索引擎通過什麼來識別我們的網站
一、爬行。
即發現網址鏈接的過程。
二、抓取存儲。
此時搜索引擎的程序會向網站所在伺服器提出請求,下載當前網站的整個頁面,然後存儲到搜索引擎自己的數據存儲伺服器上。搜索引擎下載處理網頁的能力很快,可以同時進行成千上萬個。
三、處理。
首先是對它下載下來網站的處理,如提取文字,進行中文分詞,去除一些無用內容,以及判斷文字內容是否是原創等。
其次是索引,所有處理過的網站最終形成一個關鍵詞和關鍵詞所在位置的集合。如一個網站上有哪些詞,這些詞出現多少次,在什麼地方出現,是否有強調(如加粗等)。
通過以上兩個步驟,搜索引擎以關鍵詞的形式來識別你這個網站的內容與哪些主題相關。
四、排名
將存儲在搜索引擎自己資料庫里的內容與用戶搜索詞進行匹配,決定最終的排名。
Ⅲ 大數據採集與存儲的基本步驟有哪些
數據抽取
針對大數據分析平台需要採集的各類數據,分別有針對性地研製適配介面。對於已有的信息系統,研發對應的介面模塊與各信息系統對接,不能實現數據共享介面的系統通過ETL工具進行數據採集,支持多種類型資料庫,按照相應規范對數據進行清洗轉換,從而實現數據的統一存儲管理。
數據預處理
為使大數據分析平台能更方便對數據進行處理,同時為了使得數據的存儲機制擴展性、容錯性更好,需要把數據按照相應關聯性進行組合,並將數據轉化為文本格式,作為文件存儲下來。
數據存儲
除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源資料庫Hbase,HBase是一種key/value系統,部署在HDFS上,與Hadoop一樣,HBase的目標主要是依賴橫向擴展,通過不斷的增加廉價的商用伺服器,增加計算和存儲能力。
關於大數據採集與存儲的基本步驟有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。