知乎推薦演算法
Ⅰ 知乎話題排名優化如何做如何讓我的評論排名靠前
這應該是兩個問題吧。知乎話題排名優化,應該是指優化新發布話題的排名。知乎平台的排名規則和百家號、今日頭條等平台有些類似,內容發布以後,平台會通過演算法推薦給目標用戶,如果用戶點擊、點贊、評論等互動數據良好,就會推薦給更多的人,獲取的權重也越來越高,在關聯關鍵詞的搜索結果中,排名也越高。一般來說,新話題發布後的2小時是關鍵,大概率決定排名的上限。至於回復、評論的排名,核心因素在於互動數據,特別是點贊量,數據越高,對排名幫助越大。(以上內容,摘選自途闊營銷官網)
Ⅱ 推薦演算法如何提前劃分製造同類目日誌
做推薦演算法的質量工作將近一年,這一年嘗試了很多東西,踩了不少坑,也對推薦的評測工作稍微有了些自己的心得,現在分享出來,希望能和做這塊工作的同學一起交流、探討,也歡迎多拍磚,多提意見。
推薦系統
目前推薦技術的應用已經非常較普及了,新聞、商品、問答、音樂,幾乎都會用到推薦演算法來為你呈現內容。下面是淘寶、知乎、微博三個app的推薦模型,可以看到推薦都在非常重要的位置。
在介紹推薦演算法評測之前,我先簡單說下推薦系統,這里我以商品為例,簡單描述下推流程,讓大家更明白一些,一般推薦主要包含以下步驟:
召回->打分排序->透出
召回
召回階段通常的手段是協同過濾比較場景的i2i,u2i等這種x2x(有興趣可以看下我寫的基於itembase的推薦),也有使用embedding的方式通過向量之間的距離進行召回。以i2i為例,假如現在要針對我推薦一個商品,那麼首先要找到我感興趣的物品 ,這些數據是通過我的歷史行為來進行獲取,比如拿到我最近一段時間內的點擊、加購、收藏、購買的物品,將這些商品做為trigger進行召回,協同演算法的具體就不再這里敘述了,有興趣可以看下鏈接,最終我們按照協同過濾演算法算出商品之間的相似分值,然後按照一定數量進行截斷,因為這里截斷也是依靠分數來進行的,所以一般這一步也稱粗排。這樣召回截斷就完成了。
打分
召回完商品後,我們需要對這些商品進行再一次的精排,這里需要用模型來預估ctr,一般情況下LR、GBDT、FM用的比較多,這里深度網路相對用的少,主要為了考慮到性能,尤其是rt,因為絕大部分的精排都是需要實時預測的,所有對耗時有一定的要求。繼續說下模型預測的步驟,首先針對召回的商品進行特徵的補充,例如該商品的一級類目、葉子類目(一級類目代表比較,葉子類目代表最細分的類目)、被多少用戶購買等,然後再加入人的特徵,例如性別、年齡、收入、對類目的偏好等,然後將這些信息做為feature,用模型進行預測,然後根據模型預測的結果進行排序,輸出。
模型
打分過程中的模型是需要提前訓練和部署,訓練集的來源就是用戶的實時行為加上用戶和商品的特徵。feature的構成是用戶的特徵和商品的特徵,label則是用戶是否點擊了該商品。
質量方案
接下來說下如何保證這塊的質量。由於推薦系統最終對用戶需要提供實時的服務化,因此免不了有工程端的技術需要一起配合。因此我這塊主要分為兩個維度來開展,一方面是工程端的質量保證,一方面是演算法側的質量保證。
工程端質量
這一塊可以將演算法當成一個黑盒子,只把他當成一個有結果返回的介面。針對這方面前人已經有了豐富的經驗,我們可以做介面的單元測試和冒煙測試,另外就是壓測,在預估的qps下看rt是否滿足業務方的要求,load是否過大,超時和錯誤的比例是否符合一定的預期。這里就不細說了,重點說說第二部分。
演算法端質量
這里我再進行細分一下,分為三部分介紹:演算法數據、演算法模型、演算法效果;
演算法數據:
大家都知道演算法在做訓練前數據的處理部分非常的重要,有興趣可以看下特徵工程相關的內容,數據的來源,特徵的構造,數據抽取、加工整個的過程都有可能會出現錯誤,而且數據一般都是存儲在分布式系統資料庫里,因此需要藉助類似hive這樣的工具將sql轉換成MapRece的任務去進行離線的計算,離線任務的產出通常會耗費不少的時間,而對於一些日更新的模型通過對數據對產出時間有一定的要求。因此數據這塊最主要的保證點為:數據本身的質量,和數據的產出時間。數據本身的質量一般可以通過數據大小的整體抖動,以及關鍵欄位是否為空,主鍵是否重復,做法比較簡單可以通過簡單sql或者udf來完成,然後藉助工程能力做到預警、檢查、出報表等。
演算法模型:
模型的本身在迭代過程中也是需要關注的,不過通常演算法同學的訓練優化也是參考這些指標,所以我們也可以把這幾個指標做為模型本身好壞的評估。具體為:准確率、召回率、AUC。
演算法效果:
那麼這個演算法推薦出的效果究竟好不好呢,這個是一個非常主觀的事情,每個人的感受也不是一樣的,但是我們仍然要衡量它的好壞,這里我參考業內學者的推薦書籍以及自己的一些摸索,總結出下面一些方法,供大家參考。
人工評測:
顧名思義,邀請一幫人來對你的推薦系統的結果進行評測。這里想法來自於我在做翻譯評測時期的經驗,首先這個成本比較高,另外就是參雜了人的主觀性非常的高,翻譯的好壞我們可以通過制定一些細致的規則來進行約束,但是推薦的好壞我們卻不好制定詳細的規則,另外就是推薦之前的用戶行為如何模擬,如何讓評測者進行感知,這些都是比較難的,並且和基準的對比也不是很好做,所以這里不是很推薦用這個方法,但是還是要提一下。
指標評估:
指標化推薦結果,也就是將推薦的結果用不同的指標來進行說明,通過這些指標,你可以更加的了解你的推薦系統,部分指標不一定越高越好,但是你需要讓它保持在一定的范圍內。說到具體的例子的時候,我會提一下。下面我們看下這些指標。
覆蓋率
定義:
推薦系統能夠推薦出來的「商品/類目」占「總商品/類目」集合的比例。假設系統的用戶集合為U,推薦系統給每個用戶推薦一個長度為N的物品列表R(u) ,總物品為N。那麼:
覆蓋率 = ΣR(u)N
Σ
R
(
u
)
N
意義:
描述推薦結系統對物品長尾發掘能力;
舉個例子,淘寶上商品千千萬萬,推薦系統能否保證讓新的一些商品有足夠的機會曝光出去呢?還是有些商品永遠都無法得到推薦曝光的機會。這個指標反應的就是這個情況,顯然物品的覆蓋率是達不到100%的,但是我們可以看類目的覆蓋率來進行衡量,假設全網所有的一級大類目一共2千個(和全網上億的物品相比非常的少),那麼推薦系統一天之內推薦出去的商品對應的一級類目,這個就是我們要衡量的標准。如果覆蓋率
Ⅲ 知乎搜索話題是可以自動補全,使用了什麼數據結構和演算法
首先,要能夠讀懂代碼,總結演算法的思想,搞清楚該題演算法是完成什麼功能,然後是填空也好,寫演算法結果也好,就不成問題了。要想提高的快,就得多練啊。同時教材中的相關演算法也要熟,好多是書中的原演算法
1. 在計算機中,演算法是指什麼?
答案:解題方案的准確而完整的描述。
2. 在下列選項中,哪個不是一個演算法一般應該具有的基本特徵?
說明:演算法的四個基本特徵是:可行性、確定性、有窮性和擁有足夠的情報。 答案:無窮性。
3. 演算法一般都可以用哪幾種控制結構組合而成? 答案:順序、選擇、循環。 4. 演算法的時間復雜度是指?
答案:演算法執行過程中所需要的基本運算次數。 5. 演算法的空間復雜度是指?
答案:執行過程中所需要的存儲空間。 6. 演算法分析的目的是?
答案:分析演算法的效率以求改進。 7. 下列敘述正確的是(C)
A.演算法的執行效率與數據的存儲結構無關
B.演算法的空間復雜度是指演算法程序中指令(或語句)的條數 C.演算法的有窮性是指演算法必須能在執行有限個步驟之後終止 D.演算法的時間復雜度是指執行演算法程序所需要的時間 8. 數據結構作為計算機的一門學科,主要研究什麼?
答案:主要研究數據的邏輯結構、對各種數據結構進行的運算,以及數據的存儲結構。 9. 數據結構中與所使用的計算機無關的是數據的(C) A.存儲結構 B.物理結構
C.邏輯結構 D.物理和存儲結構 10. 下列敘述中,錯誤的是(B)
A.數據的存儲結構與數據處理的效率密切相關 B.數據的存儲結構與數據處理的效率無關
C.數據的存儲結構在計算機中所佔的空間不一定是連續的 D.一種數據的邏輯結構可以有多種存儲結構 11. 數據的存儲結構是指什麼?
答案:數據的邏輯結構在計算機中的表示。 12. 數據的邏輯結構是指?
答案:反映數據元素之間邏輯關系的數據結構。
13. 根據數據結構中各數據元素之間前後件關系的復雜程度,一般將數據結構分為? 答案:線性結構和非線性結構。
14. 下列數據結構具有記憶功能的是(C) A.隊列 B.循環隊列 C.棧
D.順序表
15. 下列數據結構中,按先進後出原則組織數據的是(B) A.線性鏈表 B.棧
C.循環鏈表 D.順序表
Ⅳ 知乎關鍵詞排名怎麼做知乎關鍵詞排名技巧
首先我們要知道的是知乎關鍵詞排名就是知乎搜索結果所搜索出來的結果排名,知乎關鍵詞排名不是檢索所有問題,而是只檢索新問題和熱門問題。根據演算法,來計算問題熱度,只有熱度超過某個閾值,問題才會添加到搜索的范圍內。
所以我們在做知乎關鍵詞排名的時候一定要注意內容的質量,盡可能獲得更多的關注,比如評論點贊,只有問題的關注度達到一定程度,才有可能被收錄來排名,那麼知乎關鍵詞排名怎麼做呢?這里我們可以參考一下知乎排名演算法:
以上就是知乎威爾遜演算法,其中其中 u 為加權贊同票數,v 為加權反對票數,[公式] 為參數。在我們做知乎關鍵詞排名的時候就可以根據以上演算法來進行一個順序排列,這樣做關鍵詞排名就比較簡單了。
Ⅳ 是不是可以通過演算法或者某種方法把知乎的贊同數超過100的問題全部選出來
這估計太多了吧。。。
我先拋個磚:如果能找到一個頁面,裡面列出了所有的問題及其贊同數,就可以用文本分析的方法找出符合要求的。
但是我沒用過知乎,不知道有沒有這樣的頁面存在。
Ⅵ 知乎上面有哪些計算機科學與軟體工程方面值得一看的問答
導論:
編程入門指南 v1.3 - 蕭井陌的專欄 - 知乎專欄
如何系統、科學地自學編程知識? - 學習方法
IT 前輩們對計算機相關專業本科在校大學生有什麼可以傳授的經驗么? - 編程
計算機本科應屆畢業生要有怎樣的能力才算比較好的? - 程序員
書單、資源
Students - Guide to Technical Development
程序員必讀書單 1.0
resources - What is the single most influential book every programmer should read?
有哪些可以提高程序員技術檔次的書或博客? - 編程
Coursera 上有哪些課程值得推薦? - 位元組的回答
數據結構:
如何學習數據結構? - C(編程語言)
怎麼學好數據結構? - 演算法
怎樣學好數據結構和編程? - 程序員
學習數據結構有什麼用? - 編程
關於學習數據結構與演算法的一些疑惑? - 編程
演算法:
怎樣學演算法? - 學習方法
有哪些學習演算法的網站推薦? - 編程
在編程和演算法領域,有哪些經典問題? - 編程
什麼是動態規劃?動態規劃的意義是什麼? - 演算法
Ⅶ 知乎問答推廣怎麼做
第一點:高權重賬號
知乎內容展現和賬號權重,投票機制相關。賬號權重和賬號注冊時間,關注人多,回答質量相關,知乎投票機制包括點贊,收藏,喜歡,感謝,評論等。
所以,在知乎推廣引流要使用高權重的賬號。如果自己已有知乎賬號,並且注冊時間較早,且有一定基礎可以直接拿來養號備用。也可以去網上購買老號,再綁定自己的手機。完善資料信息,關注一些話題,大號,點贊,評論一些相關內容。
注意一定要有養號的步驟而不是一拿過來就打廣告。
賬號級別高,回答數量多,在知乎的影響力是非常大的,所回答的問題所寫的文章,就會被知乎收錄。每個問答的點贊,感謝關注也等都有很多。
相反,像這類的「三無」小號(昵稱亂碼,沒有頭像,沒有個人介紹,沒有或極少關注問題,沒有粉絲也沒有去關注其他人,沒有點贊,沒有提問,沒有回答),基本上是什麼都沒有,如果一上來就做推廣的話,基本上就會死翹翹了!
第二點:找准推廣位置
知乎對廣告容忍度是比較高的,當然前提是你提供的是干貨有價值的廣告信息。通常可以在這些地方打廣告。
1. 知乎昵稱和個人介紹,直接取名就是廣告,個人介紹那裡可以留聯系方式;
2.回答內容直接放廣告,文中或文末放微信號或二維碼,不過初級賬號不建議這樣操作,容易封號;
3. 除了提問,回答,發布文章,知乎還有一個發布想法,類似於微博,說說,在這里發布廣告比較安全,如果你的粉絲關注者多,也能起到一定推廣效果;文章盡量干一點,然後會讓你投稿,可以全部投稿,這樣得到展現的幾率大一點;
第三點:提供高質量內容
最後也是最重要的一點,在知乎推廣引流,一定是要提供高質量的干貨內容。
(一)如何選擇問題,找問題之前要先對自己的目標用戶進行畫像,先要知道他/她會關注哪些話題,這樣才能選擇好問題。以做網路營銷培訓為例。
(1)直接搜索相關話題,到話題里檢索問題,還有父話題,子話題,到話題里去找問題。
(2) 篩選潛力話題,要根據潛在客戶的心理去找話題,要了解他們會關注哪些話題,然後在去回答。
(3)新手不建議去回答大話題。要盡量避開答案多,牛人多的問題,就算回答了也會在後面,會被淹沒。回答體量中等偏上的問題,流量在幾千到一萬之間就比較合適,既沒有很多牛人競爭,也有一定瀏覽量,潛在用戶也能看到,等自己的賬號有一定權重了再去回答熱門的話題,
4)找准問題,掌握回答時機,在熱度起來之前搶佔先機,估計這個問題之後會不會有許多人回答、有大v參與,回答的早,初期有贊,才能不被大v的回答壓的太下面
Ⅷ 知乎是如何把SEO排名做上去的
不知道知乎團隊對於SEO的看法是怎樣的,我還是建議知乎更好的重視起SEO。SEO和產品設計、用戶體驗之間並不矛盾,絕對互補,而且對於知乎而言,絕對是可以利用的一個有效途徑。
一、知乎非常容易獲得搜索引擎排名和流量。
問題本身符合用戶搜索需求。一直認為QA站是非常適合做搜索引擎流量的,因為問題本身就是用戶關注的東西,也是或者包含了用戶的搜索請求詞。
原創內容的更新頻率非常高效。這個什麼好解釋的,包括問題的更新、答案的更新、頁面的更新等,不斷豐富的原創內容絕對符合搜索引擎口味。
內部引導非常好。通過話題的組織、用戶行為(問答、投票)、相關話題等設計,知乎內部幾乎創造了一個非常健康、優秀的網站鏈接架構。而且,這些架構設計本身就是符合用戶體驗,需要不斷增強的。
符合用戶需求,創造用戶和搜索引擎希望的內容,擁有良好的內部架構和外部口碑,知乎絕對具備了獲取搜索引擎流量的潛力。
二、知乎現在做的不好/可以完善的地方。
相關問題的推薦演算法。感覺現在知乎是以話題為最主要推薦基礎,先在所屬的話題下根據演算法推薦出相關問題。但是研究這么久,感覺這個演算法的可靠性還是很差,或者隨機性太高?推薦話題這個從產品角度上將是用戶引導,從SEO上講就是內鏈優化,兩者都是統一的。搜索引擎喜歡的,本質就是用戶需要的。
知乎現在是對搜索引擎封閉的,所以收錄接近於零。為什麼不開放頁面給搜索引擎呢?這個與封閉社區並不沖突。而且,換個角度講,如果用戶在搜索引擎里搜的話題跟知乎上的問題是一致的,那可能更說明這個用戶是知乎的目標用戶?這種對應關系可能比邀請機制擴散後獲得會員更為有質量和黏性。
頁面的基礎元素沒有做,類似meta這些。在quora上很多人討論quora為什麼在搜索引擎結果里會有很好的排名,除了上面說的這類網站本身具備的優勢外,quora也是對網站整體做了符合搜索引擎友好的設置和優化的,譬如meta這類。<meta property="og:description" content="Answer (1 of 2): See Why is Quora ranking so high on Google?" /><meta property="og:title" content="Why don't Quora question pages rank higher in Google searches?" />
個人profile的搜索排名。現在很多的在線名片http://about.me這類網站有一個目的就是獲取用戶名字在搜索引擎結果里的排名,給用戶提供額外價值。facebook、myspace等社交網站,以及Quora都為會員profile進行了SE優化。知乎也應該做,絕對應該,無論從搜索引擎流量而言,還是從網站的特性而言,用戶的profile都將成為非常重要的一點過渡頁面。在這個頁面上展示用戶的歷史痕跡,給其他人引導和發掘的機會。知乎要發力,除了QA本身之外,用戶登錄首頁、個人主頁都是需要重視的,也是更容易增強用戶黏性的地方。通過針對性優化,提升個人名字、主頁在搜索引擎結果頁面的排名,實際上對於該用戶本身,或者搜索這類名字的人來說,都是絕佳的。上面也說了,搜索某個用戶名的人,很可能也是知乎的目標人群,因為這個搜索者必然是有針對該用戶進行探索的需求的。
很多網站成功,都不會說因為SEO而成功,很多都會歸結於其他各種原因。但是評估其大多數成功的網站,都會發現這些網站的搜索引擎友好性是非常好的,而且也重視搜索引擎。關注SEO不會讓知乎取得成功,但是卻可以讓知乎獲得更大的發展。所以,知乎還是重視下SEO吧
來自:知乎-葛小飛
Ⅸ 知乎小紅書的演算法規則是怎樣的,怎麼做關鍵詞排名
知乎小紅書的演算法都非常復雜,但是基本上還是會與發布賬號權重,文章回答的互動量等等有關,更與文案的質量有關,因此很多關鍵詞排名優化都是從此入手的
Ⅹ 那個知乎上為什麼整天推薦的都是婚姻兩性的話題
知乎推薦演算法是根據您訪問的頻次、關注點、輸入法抓取數據來計算的,可能是平時您對這方面的內容關注比較多,因此向您推薦的便以這方面居多