當前位置:首頁 » 操作系統 » pr秒數演算法

pr秒數演算法

發布時間: 2023-06-10 07:49:10

1. PR值的演算法

PR值的演算法:
PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))
其中PR(A)表示的是從一個外部鏈接站點t1上,依據PageRank系統給你的網站所增加的PR分值;PR(t1)表示該 外部鏈接網站本身的PR分值;C(t1)則表示該外部鏈接站點所擁有的外部鏈接數量。大家要謹記:一個網站的投票權 值只有該網站PR分值的0.85,而且這個0.85的權值平均分配給其鏈接的每個外部網站。設想我們的一個網站,被鏈 接至PR值為4,外部鏈接數為10的網站,則計算公式如下:
PR(AKA)=(1-0.85)+0.85*(4/10)=0.15+0.85*(0.4)=0.15+0.34=0.49
也就是說,如果我的網站和一個PR值為4、外部鏈接數為10的網站鏈接,最後我的網站將獲得的PR值為0.49。 再讓我們看看如果我們網站獲得的是一個PR值為8,外部鏈接數為32的網站的鏈接,那麼我將獲得的PR分值將是:
PR(AKA)=(1-0.85)+0.85*(8/32)=0.15+0.85*(0.25)=0.3625

2. 網站PR的計算公式!

假設一個由4個頁面組成的小團體:A,B, C 和 D。如果所有頁面都鏈向A,那麼A的PR(PageRank)值將是B,C 及 D的和。

PR(A) = PR(B) + PR(C) + PR(D)

繼續假設B也有鏈接到C,並且D也有鏈接到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯,D投出的票只有三分之一算到了A的 PageRank 上。

PR(A) =PR(B) /2+PR(C) /1+PR(D)/3

換句話說,根據鏈處總數平分一個頁面的PR值。

PR(A) =PR(B) /L(B)+PR(C) /L(C)+PR(D)/L(D)

最後,所有這些被換算為一個百分比再乘上一個系數q。由於下面的演算法,沒有頁面的PageRank會是0。所以,Google通過數學系統給了每個頁面一個最小值1−q。

PR(A) =(PR(B) /L(B)+PR(C) /L(C)+PR(D)/L(D)+...+PR(N)/L(N))q+1-q

所以一個頁面的 PageRank 是由其他頁面的PageRank計算得到。Google 不斷的重復計算每個頁面的 PageRank。如果您給每個頁面一個隨機 PageRank 值(非0),那麼經過不斷的重復計算,這些頁面的 PR 值會趨向於正常和穩定。這就是搜索引擎使用它的原因。

其中,PR(A):指網頁A的佩奇等級(PR值)

PR(B)、PR(C)...PR(N)表示鏈接網頁A的網頁N的佩奇等級(PR)。N是鏈接的總數,這個鏈接可以使來自任何網站的導入鏈接(反向鏈接)。

L(N):網頁N往其他網站鏈接的數量(網頁N的導出鏈接數量)

q:阻尼系數,介於0-1之間,google設為0.85.

從上面的公式我們可以看到網頁A的PR是由鏈接它的其他網頁L(N)所決定的。在網頁L(N)中如果有一個鏈接指向網頁A,那麼A就得到了一個「投票氣而這個投票來自網上任何一張網頁。每個「投票」都是表示一份「支持」。越多的鏈接指向網頁A,網頁A的PR值或者等級就越高。沒有鏈接就是沒有一個網頁支持A。

但是不同網頁的PR值不同,所以不同的網頁給網頁A的投票權重是不一樣的。

完整的PR值計算方法

這個方程式引入了隨機瀏覽的概念,即有人上網無聊隨機打開一些頁面,點一些鏈接。一個頁面的PageRank值也影響了它被隨機瀏覽的概率。為了便於理解,這里假設上網者不斷點網頁上的鏈接,最終到了一個沒有任何鏈出頁面的網頁,這時候上網者會隨機到另外的網頁開始瀏覽。

3. PR的演算法介紹

PageRank
基本思想:如果網頁T存在一個指向網頁A的連接,則表明T的所有者認為A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值為:PR(T)/C(T)
其中PR(T)為T的PageRank值,C(T)為T的出鏈數,則A的PageRank值為一系列類似於T的頁面重要性得分值的累加。
PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))
A代表頁面A
PR(A)則代表頁面A的PR值
d為阻尼指數。通常認為d=0.85
t1…tn 代表鏈接向頁面A的頁面t1到tn
C代表頁面上的外鏈接數目。C(t1)即為頁面t1上的外鏈接數目
從計算公式可以看到,計算PR值必須使用迭代計算才能得到。
優點:是一個與查詢無關的靜態演算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。
不足:人們的查詢具有主題特徵,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網頁的歧視。
Topic-Sensitive
(主題敏感的PageRank)
基本思想:針對PageRank對主題的忽略而提出。核心思想:通過離線計算出一個PageRank向量集合,該集合中的每一個向量與某一主題相關,即計算某個頁面關於不同主題的得分。主要分為兩個階段:主題相關的PageRank向量集合的計算和在線查詢時主題的確定。
優點:根據用戶的查詢請求和相關上下文判斷用戶查詢相關的主題(用戶的興趣)返回查詢結果准確性高。
不足:沒有利用主題的相關性來提高鏈接得分的准確性。
Hilltop
基本思想:與PageRank的不同之處:僅考慮專家頁面的鏈接。主要包括兩個步驟:專家頁面搜索和目標頁面排序。 優點:相關性強,結果准確。 不足:專家頁面的搜索和確定對演算法起關鍵作用,專家頁面的質量決定了演算法的准確性,而專家頁面的質量和公平性難以保證;忽略了大量非專家頁面的影響,不能反映整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對於查詢排序進行求精。

熱點內容
無法訪問別人的共享 發布:2025-04-06 08:41:31 瀏覽:398
我的世界伺服器生存地址 發布:2025-04-06 08:20:25 瀏覽:722
des演算法缺點 發布:2025-04-06 08:13:51 瀏覽:571
電腦伺服器數據連接不上access 發布:2025-04-06 08:12:21 瀏覽:209
堆調整演算法 發布:2025-04-06 08:08:38 瀏覽:603
網頁點上傳 發布:2025-04-06 07:59:54 瀏覽:782
c高級編程第八版 發布:2025-04-06 07:55:20 瀏覽:986
ftp伺服器怎麼填寫ip地址 發布:2025-04-06 07:54:04 瀏覽:835
c語言的二維數組賦值 發布:2025-04-06 07:51:52 瀏覽:803
java忙 發布:2025-04-06 07:29:39 瀏覽:215