pagerank演算法的實現
❶ PageRank演算法實現好友推薦(演算法原理)
對於社交系統與電商網站,推薦系統佔有很重要的位置,當數據量越來越大的時候,用戶無法確定該選擇什麼商品,因此在電商系統中需要按照興趣或者相似度給用戶推薦相應的商品。相應的,在一個大型社交網路平台中,睜喚手對於一些用戶,我們希望推薦一些知名度較高,活躍度較高或者感興趣的用戶,比如一些明星,歌手,演員等等。在社交網路中,PageRank演算法有著廣泛的應用,因此,本篇文章主要介紹其原理。
對於大部分社交系統來說,如果只是簡單的獲取好友的信息遠遠不夠,我們可以通過獲取好友的好友的信息來擴展用戶的朋友圈,使得信息量更加豐富,本項目中使用PageRank演算法來完成二級鄰居,然後按照Rank排序,選擇Top5用戶實現用戶的好友的好友的推薦。
PageRank演算法由Google的創始人拉里·佩奇和謝爾·布林於1998年發明.這項技術設計之初是為了體現網頁的相關性和重要性,在搜索引擎優化操作中經常被用來評估網頁優化的成效因素之一.
從技術上看,搜索引擎需要解決以下三個問題:
本質就是一個爬蟲問題,通過爬蟲獲取整個互聯網的數據
關鍵在於快速找到.
它的實現方式有: 倒排索引,簽名文件,後綴樹等。我們最熟悉的是 倒排索引 。(並不熟悉,以後有機會再看)
排序是Google的搜索引擎能夠興起的一個決定性因素。
對網頁排序有很多種方式,我們來看三種:
就是原封不懂地把索引到的鏈接直接返回給用戶,缺點就不說了,想找自己感興趣的內容估計要費不少功夫。
這種方式是一種只從關鍵詞出現的次數和位置進行排序的方法。該方法以一個關鍵詞與網頁的相關度大小作為排序標准,而關鍵詞在網頁的相關度大小作為排序標准,而關鍵詞在網頁中的相關度則由它在網頁中出現的頻次和位置兩方面加權計算得出。
缺點也很明顯,容易出現刷分的情況,整篇文章中大量地刷關鍵詞就能提高排名。
真正找到計算網頁自身質量的完美的數學模型是Google的創始人拉里佩奇和謝爾蓋布林。 下一節講一下原理。
我們模擬一個悠閑的上網者,上網者首先隨機選擇一個網頁打開,然後在這個網頁上呆了幾分鍾後,跳轉到該網頁所指向的鏈接,這樣無所事事、漫無目的地在網頁上跳來跳去,PageRank就是估計這個悠閑的上網者分布在各個網頁上的概率,這個概率就代表這個網頁的重鏈大要性.
PageRank主要基於兩個重要的假設:
如果一篇文章被越來越多的人引用,那麼這篇文章可能就是一篇經典之作,如果這篇文章引用了其他的論文,那麼一定程度上這篇被引用的文章也是一篇很好的文章。應用到社交網路中,如果一個好友被更多的人關注,那麼說明該好友有很高的知名度和活躍度,那麼,我們可以將該好友推薦給用戶。
基於這兩個假設,我們可以總結出PageRank演算法的核心:
如下圖,可以更好的表達PageRank演算法的思想:
由上圖可知,每個頁面將自己的一部分rank傳遞給某個頁面,我們可悉嫌以通過計算傳遞給某個頁面的所有rank值的和來計算出它的rank值,當然,不可能是通過一次計算完成,我們剛開始可以給每個頁面賦予一個初始rank值,比如 1/N(N為頁面總數) ,通過迭代計算得到該頁面的rank值。
迭代計算停止的條件為:
使用有向圖表示:
這個例子中只有四個網頁,如果當前在A網頁,那麼悠閑的上網者將會各以1/3的概率跳轉到B、C、D,這里的3表示A有3條出鏈,如果一個網頁有k條出鏈,那麼跳轉任意一個出鏈上的概率是1/k,同理D到B、C的概率各為1/2,而B到C的概率為0。
我們在做計算的時候會將該圖表示成一個二維的矩陣,我們做一個轉換,就會變成下圖的矩陣形式。 M(i,j) 表示j節點指向i節點的概率 ,一般來說每列和為1。
生成的 轉移矩陣 非常簡單, 矩陣的每一列代表該頂點所代表的頁面除以對應頁面的出鏈數得到的 。
有了轉移矩陣,我們可以來定義行向量 V , V 的第i個分量記錄 對應的Rank值,因此一次Rank的更新可以表示為:
在演算法的第一輪計算中,我們假設上網者在每一個網頁的概率都是相等的,即1/n,於是初試的概率分布就是一個所有值都為1/n的n維列向量 ,用 去右乘轉移矩陣M,就得到了第一步之後上網者的概率分布向量 ,得到一個nX1的矩陣 , 這個 一輪迭代計算出來的PageRank值 。下面是 的計算過程:
得到了 後,再用 去右乘M得到 ,一直下去,即 , 最終V會收斂 .
不斷的迭代,最終得到結果.
但是在迭代計算中,我們需要考慮如下兩大阻力: Dead End 和 Spider Trap :
Dead End就是指一個頁面只有入鏈但是沒有出鏈,這時轉移矩陣M的一列為零,導致最後結果為零。這時web不是強連通的,即存在某一類節點不指向別人,如下圖的D。這個時候我們的演算法就會出問題了,它不滿足收斂性了。
為什麼不滿足收斂性了?
Spider Trap指頁面的所有出鏈都指向自己,這樣會使迭代結果中只有自己的頁面的Rank值很高。其他頁面的Rank值為零。
要克服上面兩個問題,我們需要將迭代計算公式做如下轉變。我們可以加入一個 隨機跳轉 機制.
即假設每個頁面有很小概率擁有一個指向其他頁面的鏈接。
表現出來就是:其他頁面本來傳遞給一個頁面的Rank值需要做一個折扣,作為補償,可能需要一個頁面指向該頁面並且傳遞Rank值給該頁面,該跳轉的概率為β,因此表達式變為:
其中,N為頁面總數; e 為一個N維且各個分量都是1的向量;β通過經驗得知一般設為0.15.
此時的計算結果過程為:
有機會再寫,先空著
❷ 對pagerank演算法的整理
1、首先先大致介紹下pagerank,pagerank是Google排名演算法法則的一部分,是用來標記網頁的等級的一種方法,也是用來衡量一個網頁好壞的唯一標准。pagerank他採用PR值來劃分網頁的受歡迎度,PR值越高,則表名受歡迎度越高,PR最高為10,最低為0,一般PR達到4,則表名網站已經不錯了。PR為4的網站比PR為3的網站不是單純的好一點來形容,他是一種里氏震級的形式來形容的,就好比地震的等級,是指數刻度增長的,因此可以想像PR為10的網站是一種什麼程度。因為這個演算法是Google提出的,因此Google將自己的網站PR值設置為10,所以想要自己的網站PR達到10,是非常難的,如果你的網站可以達到Google的水平。
2、介紹完了pagerank是一個什麼東西後,我們就來介紹一下pagerank如何計算的。
2.1、用個例子來說明下PageRank演算法
在網頁A中有B、C、D三個鏈接,在網頁B中有A、C兩個個鏈接,在網頁C中有D鏈接,網頁D中有A、B兩個鏈接。(可以看出這個圖是強鏈接的,任何一個節點都可以到達另一個節點)。
我們假設每一個鏈接訪問的概率是相同的,為了計算方便我們將每一個網頁的PageRank設置為1。
先給出計算公式
PR(pj) 表示網頁 pj 的 PageRank 得分,L(pj) 表示網頁 pj 的出鏈接數量,1/L(pj) 就表示從網頁 pj 跳轉到 pi 的概率。
所以我們來計算第一次迭代後的PR值:
PR(A)=PR(B)/2+PR(D)/2
PR(B)=PR(A)/3+PR(D)/2
PR(C)=PR(A)/3+PR(B)/2
PR(D)=PR(A)/3+PR(C)/1
PR(A)+PR(B)+PR(C)+PR(D)=1
PR(A)=0.265, PR(B)=0.235, PR(C)=0.206, PR(D)=0.294
通過上面的公式在不斷的進行迭代,可以得到一個收斂值,大概是在(0.265,0.235,2.206,0.294)附近。
2.2看完公式之後,我們來考慮倆種特殊的情況
2.2.1終止問題
上面過程要滿足收斂性,需要具備一個條件:圖是強連通的,即從任意網頁可以到達其他任意網頁。
互聯網中存在網頁不滿足強連通的特性,因為有一些網頁不指向任何網頁,按照上面公式迭代計算下去,導致前面累計得到的轉移概率被清零,最終得到的概率分布向量所有元素幾乎都為0。
假設把上面圖中C到D的鏈接丟掉,C變成了一個終止點,得到下面這個圖:
轉移矩陣M為:
不斷迭代,最終得到所有元素都為0。
2.2.2 、陷阱問題
陷阱問題:是指有些網頁不存在指向其他網頁的鏈接,但存在指向自己的鏈接。比如下面這個圖:
這種情況下,PageRank演算法不斷迭代會導致概率分布值全部轉移到c網頁上,這使得其他網頁的概率分布值為0,從而整個網頁排名就失去了意義。如果按照上面圖則對應的轉移矩陣M為:
不斷迭代,最終得倒如下結果:
為了解決終止點問題和陷阱問題 ,下面需要對演算法進行改進。假設選取下一個跳轉頁面時,既不選 當前頁面 ,也不選 當前網頁上的其他鏈接 ,而是以一定概率跳轉到其他不相關網頁,那麼上面兩個問題就能得到很好的解決,這就是 完整 PageRank 演算法思想 。
N表示的時網頁鏈接的個數,α表示不進行隨機跳轉的概率。
利用上面公式繼續迭代下去,直到收斂,得到最終rank值。
PageRank 的計算是采樣迭代法實現的:一開始所有網頁結點的初始 PageRank 值都可以設置為某個相同的數,例如 1,然後我們通過上面這個公式,得到每個結點新的 PageRank 值。每當一張網頁的 PageRank 發生了改變,它也會影響它的出鏈接所指向的網頁,因此我們可以再次使用這個公式,循環地修正每個網頁結點的值。由於這是一個馬爾科夫過程,所以我們能從理論上證明,所有網頁的 PageRank 最終會達到一個穩定的數值。整個證明過程很復雜,這里我們只需要知道這個迭代計算的過程就行了。
3、基於本文主題叫做數學建模之美,也是一篇讀後感,所以我們還是寫一下感受吧。
這個演算法的優美之處,就在於巧妙地將網頁內容的好壞,根據鏈接數的形式,用PR值進行了排名,它不僅激發網頁越做越好,也促進了各個網頁之間的聯系。
同時在結構方面,他將一個復雜的問題,進行了簡單的類比,用圖結構的形式代替鏈接的形式,用戶訪問的順序,也就是節點的走向。所以數學之美就在於他是非常的簡單,用簡單的原理,向我們展示了一個復雜的問題。
❸ 搜索引擎的排序演算法都有哪些是怎麼實現的
2.1基於詞頻統計——詞位置加權的搜索引擎
利用關鍵詞在文檔中出現的頻率和位置排序是搜索引擎最早期排序的主要思想,其技術發展也最為成熟,是第一階段搜索引擎的主要排序技術,應用非常廣泛,至今仍是許多搜索引擎的核心排序技術。其基本原理是:關鍵詞在文檔中詞頻越高,出現的位置越重要,則被認為和檢索詞的相關性越好。
1)詞頻統計
文檔的詞頻是指查詢關鍵詞在文檔中出現的頻率。查詢關鍵詞詞頻在文檔中出現的頻率越高,其相關度越大。但當關鍵詞為常用詞時,使其對相關性判斷的意義非常小。TF/IDF很好的解決了這個問題。TF/IDF演算法被認為是信息檢索中最重要的發明。TF(Term Frequency):單文本詞彙頻率,用關鍵詞的次數除以網頁的總字數,其商稱為「關鍵詞的頻率」。IDF(Inverse Document Frequency):逆文本頻率指數,其原理是,一個關鍵詞在N個網頁中出現過,那麼N越大,此關鍵詞的權重越小,反之亦然。當關鍵詞為常用詞時,其權重極小,從而解決詞頻統計的缺陷。
2)詞位置加權
在搜索引擎中,主要針對網頁進行詞位置加權。所以,頁面版式信息的分析至關重要。通過對檢索關鍵詞在Web頁面中不同位置和版式,給予不同的權值,從而根據權值來確定所搜索結果與檢索關鍵詞相關程度。可以考慮的版式信息有:是否是標題,是否為關鍵詞,是否是正文,字體大小,是否加粗等等。同時,錨文本的信息也是非常重要的,它一般能精確的描述所指向的頁面的內容。
2.2基於鏈接分析排序的第二代搜索引擎
鏈接分析排序的思想起源於文獻引文索引機制,即論文被引用的次數越多或被越權威的論文引用,其論文就越有價值。鏈接分析排序的思路與其相似,網頁被別的網頁引用的次數越多或被越權威的網頁引用,其價值就越大。被別的網頁引用的次數越多,說明該網頁越受歡迎,被越權威的網頁引用,說明該網頁質量越高。鏈接分析排序演算法大體可以分為以下幾類:基於隨機漫遊模型的,比如PageRank和Repution演算法;基於概率模型的,如SALSA、PHITS;基於Hub和Authority相互加強模型的,如HITS及其變種;基於貝葉斯模型的,如貝葉斯演算法及其簡化版本。所有的演算法在實際應用中都結合傳統的內容分析技術進行了優化。本文主要介紹以下幾種經典排序演算法:
1)PageRank演算法
PageRank演算法由斯坦福大學博士研究生Sergey Brin和Lwraence Page等提出的。PageRank演算法是Google搜索引擎的核心排序演算法,是Google成為全球最成功的搜索引擎的重要因素之一,同時開啟了鏈接分析研究的熱潮。
PageRank演算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現在兩個方面:引用該頁面的頁面個數和引用該頁面的頁面重要程度。一個頁面P(A)被另一個頁面P(B)引用,可看成P(B)推薦P(A),P(B)將其重要程度(PageRank值)平均的分配P(B)所引用的所有頁面,所以越多頁面引用P(A),則越多的頁面分配PageRank值給P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的頁面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其計算公式為:
PR(A):頁面A的PageRank值;
d:阻尼系數,由於某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數量;
PageRank值的計算初始值相同,為了不忽視被重要網頁鏈接的網頁也是重要的這一重要因素,需要反復迭代運算,據張映海撰文的計算結果,需要進行10次以上的迭代後鏈接評價值趨於穩定,如此經過多次迭代,系統的PR值達到收斂。
PageRank是一個與查詢無關的靜態演算法,因此所有網頁的PageRank值均可以通過離線計算獲得。這樣,減少了用戶檢索時需要的排序時間,極大地降低了查詢響應時間。但是PageRank存在兩個缺陷:首先PageRank演算法嚴重歧視新加入的網頁,因為新的網頁的出鏈接和入鏈接通常都很少,PageRank值非常低。另外PageRank演算法僅僅依靠外部鏈接數量和重要度來進行排名,而忽略了頁面的主題相關性,以至於一些主題不相關的網頁(如廣告頁面)獲得較大的PageRank值,從而影響了搜索結果的准確性。為此,各種主題相關演算法紛紛涌現,其中以以下幾種演算法最為典型。
2)Topic-Sensitive PageRank演算法
由於最初PageRank演算法中是沒有考慮主題相關因素的,斯坦福大學計算機科學系Taher Haveli-wala提出了一種主題敏感(Topic-Sensitive)的PageRank演算法解決了「主題漂流」問題。該演算法考慮到有些頁面在某些領域被認為是重要的,但並不表示它在其它領域也是重要的。
網頁A鏈接網頁B,可以看作網頁A對網頁B的評分,如果網頁A與網頁B屬於相同主題,則可認為A對B的評分更可靠。因為A與B可形象的看作是同行,同行對同行的了解往往比不是同行的要多,所以同行的評分往往比不是同行的評分可靠。遺憾的是TSPR並沒有利用主題的相關性來提高鏈接得分的准確性。
3)HillTop演算法
HillTop是Google的一個工程師Bharat在2001年獲得的專利。HillTop是一種查詢相關性鏈接分析演算法,克服了的PageRank的查詢無關性的缺點。HillTop演算法認為具有相同主題的相關文檔鏈接對於搜索者會有更大的價值。在Hilltop中僅考慮那些用於引導人們瀏覽資源的專家頁面(Export Sources)。Hilltop在收到一個查詢請求時,首先根據查詢的主題計算出一列相關性最強的專家頁面,然後根據指向目標頁面的非從屬專家頁面的數量和相關性來對目標頁面進行排序。
HillTop演算法確定網頁與搜索關鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權威頁面的方法,避免了許多想通過增加許多無效鏈接來提高網頁PageRank值的作弊方法。HillTop演算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
但是,專家頁面的搜索和確定對演算法起關鍵作用,專家頁面的質量對演算法的准確性起著決定性作用,也就忽略了大多數非專家頁面的影響。專家頁面在互聯網中占的比例非常低(1.79%),無法代表互聯網全部網頁,所以HillTop存在一定的局限性。同時,不同於PageRank演算法,HillTop演算法的運算是在線運行的,對系統的響應時間產生極大的壓力。
4)HITS
HITS(Hyperlink Inced Topic Search)演算法是Kleinberg在1998年提出的,是基於超鏈接分析排序演算法中另一個最著名的演算法之一。該演算法按照超鏈接的方向,將網頁分成兩種類型的頁面:Authority頁面和Hub頁面。Authority頁面又稱權威頁面,是指與某個查詢關鍵詞和組合最相近的頁面,Hub頁面又稱目錄頁,該頁面的內容主要是大量指向Authority頁面的鏈接,它的主要功能就是把這些Authority頁面聯合在一起。對於Authority頁面P,當指向P的Hub頁面越多,質量越高,P的Authority值就越大;而對於Hub頁面H,當H指向的Authority的頁面越多,Authority頁面質量越高,H的Hub值就越大。對整個Web集合而言,Authority和Hub是相互依賴、相互促進,相互加強的關系。Authority和Hub之間相互優化的關系,即為HITS演算法的基礎。
HITS基本思想是:演算法根據一個網頁的入度(指向此網頁的超鏈接)和出度(從此網頁指向別的網頁)來衡量網頁的重要性。在限定范圍之後根據網頁的出度和入度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。
實驗數據表明,HITS的排名准確性要比PageRank高,HITS演算法的設計符合網路用戶評價網路資源質量的普遍標准,因此能夠為用戶更好的利用網路信息檢索工具訪問互聯網資源帶來便利。
但卻存在以下缺陷:首先,HITS演算法只計算主特徵向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產生主題泛化問題;第三,HITS演算法可以說一種實驗性質的嘗試。它必須在網路信息檢索系統進行面向內容的檢索操作之後,基於內容檢索的結果頁面及其直接相連的頁面之間的鏈接關系進行計算。盡管有人嘗試通過演算法改進和專門設立鏈接結構計算伺服器(Connectivity Server)等操作,可以實現一定程度的在線實時計算,但其計算代價仍然是不可接受的。
2.3基於智能化排序的第三代搜索引擎
排序演算法在搜索引擎中具有特別重要的地位,目前許多搜索引擎都在進一步研究新的排序方法,來提升用戶的滿意度。但目前第二代搜索引擎有著兩個不足之處,在此背景下,基於智能化排序的第三代搜索引擎也就應運而生。
1)相關性問題
相關性是指檢索詞和頁面的相關程度。由於語言復雜,僅僅通過鏈接分析及網頁的表面特徵來判斷檢索詞與頁面的相關性是片面的。例如:檢索「稻瘟病」,有網頁是介紹水稻病蟲害信息的,但文中沒有「稻瘟病」這個詞,搜索引擎根本無法檢索到。正是以上原因,造成大量的搜索引擎作弊現象無法解決。解決相關性的的方法應該是增加語意理解,分析檢索關鍵詞與網頁的相關程度,相關性分析越精準,用戶的搜索效果就會越好。同時,相關性低的網頁可以剔除,有效地防止搜索引擎作弊現象。檢索關鍵詞和網頁的相關性是在線運行的,會給系統相應時間很大的壓力,可以採用分布式體系結構可以提高系統規模和性能。
2)搜索結果的單一化問題
在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這並不能滿足用戶的需求。不同的用戶對檢索的結果要求是不一樣的。例如:普通的農民檢索「稻瘟病」,只是想得到稻瘟病的相關信息以及防治方法,但農業專家或科技工作者可能會想得到稻瘟病相關的論文。
解決搜索結果單一的方法是提供個性化服務,實現智能搜索。通過Web數據挖掘,建立用戶模型(如用戶背景、興趣、行為、風格),提供個性化服務。
❹ 搜索引擎的排序演算法都有哪些是怎麼實現的
搜索引擎的排序演算法:
詞頻統計——詞位置加權的搜索引擎
關鍵詞在文檔中詞頻越高,出現的位置越重要,則被認為和檢索詞的相關性越好。
1)詞頻統計
2)詞位置加權
2.2基於鏈接分析排序的第二代搜索引擎
1)PageRank演算法
PageRank演算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現在兩個方面:引用該頁面的頁面個數和引用該頁面的頁面重要程度。
其計算公式為:
PR(A):頁面A的PageRank值;
d:阻尼系數,由於某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數量;
2)Topic-Sensitive PageRank演算法
3)HillTop演算法
HillTop演算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
4)HITS
HITS演算法只計算主特徵向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產生主題泛化問題;因此可據LIngmao了解看待,找尋適合的演算法