搜索演算法起源
1. 歷年來百度搜索演算法的盤點與解讀,建議搜藏
為了給搜索用戶提供更加優質便捷的搜索體驗,網路搜索始終不忘初心,致力與內容生產者、資源提供者攜手共建和諧健康的搜索生態。
今天雲指菌要給大家總結一下網路演算法歷年來的發展歷程。
發展歷程
1997:超鏈文件檢索系統和方法
創建了區別於傳統信息檢索、基於鏈接的排名方法。由此,網路搜索引擎排名優化誕生,開啟了最早的站長時代。
2010-2011:網路搜引擎優化1.0
規范和引導站長和seoer如何進行網站排名的優化,seo正式進入互聯網營銷的舞台。
2012:超鏈演算法
為了能夠有實際標准區分網站好壞,當一個網站被較多網站應用後,網路就會給予好的的排名。從此開啟了SEO外鏈為皇的時代,導致了大量刷外鏈的行為。
2013.5:石榴演算法
打擊不良廣告、彈窗等影響用戶的行為。網站上不放彈窗廣告,減少和優化廣告投放數量。
2013.7:綠蘿演算法
打擊鏈接交易和刷外鏈的行為。鏈接交易平台、長期出售外鏈和購買外鏈的網站被降權。應當以友情鏈接代替購買外鏈,摒棄垃圾外鏈,建設優質外鏈。
2013.10:起源演算法
建立比較完善的原創識別演算法,打擊偽原創,建設原創聯盟,給予原創和優質站點更好的發展空間。應當提高文章偽原創的要求和把控。
2014.8-2018.11:冰桶演算法
打擊在移動端強行要求用戶下載APP,登陸注冊,首屏大廣告覆蓋;打擊移動端廣告展示過多的頁面;打擊內容包含灰色業務、色情內容及鏈接的網站;打擊內容粗製濫造,原創度低,閱讀體驗差的網站;控制屏幕廣告的屏佔比例,保障用戶瀏覽體驗;提升移動搜索落地頁體驗,營造優質移動搜索生態。回歸到用戶體驗,與網路移動搜索生態和諧共處。
2014.12:白楊演算法
希望實現移動站點優化,扶持地方特色類站點,優化排序,本地信息靠前,明確了城市信息前置和明確化。因此分類信息平台發布的地方性信息在搜索帶有地區詞排名會有相對靠前,也就是為了外鏈引流創造了機會。
2016.8:天網演算法
打擊盜取用戶隱私的行為,比如內嵌惡意代碼,盜取QQ和手機號等。一經發現就會處罰,整改後解除。應當刪除內嵌抓取手機號、QQ號和涉及用戶隱私的代碼。
2016.9:網路MIP和AMP
網路推出MIP框架實現移動網頁加速,被MIP-Cache緩存的頁面,在一秒內即可打開,大大提升了移動端網站的體驗,因此網路給予MIP站點更好的排名和扶持。開發簡單。成本低、兼容性好。
2016.11:藍天演算法
打擊新聞源平台售賣文章和目錄的行為,一旦觸發,取消新聞資格,降低平台評價。目前來說把控並不精準啊,文章售賣和框架刷屏依舊存在。
2017.1:百家號
網路將原有的發布平台並入百家號,自此開啟了網路自媒體時代,百家號的原創文章能夠獲得較好的發展,雖然類似頭條等自媒體平台的運作,但網路百家號是基於搜索引擎為基礎的,擁有獨特的推廣和發展機制。
2017.7-2018.9:颶風演算法
打擊採集類網站,例如網站內容中採集和轉載佔比過大,優質原創內容匱乏。打擊跨領域採集,例如一個財經網站,突然發起了建築、美食、明星、養生等類型的內容。
2017.8:網路蜘蛛升級
升級對Https數據的抓取,基於Https站點更高的權重和加分,提升優化收益。站點備案並加裝SSL協議證書,
2017.9-2018.10:清風演算法
打擊標題黨、文不符題;打擊標題關鍵詞堆砌;針對下載站的欺詐下載和捆綁下載行為。SEO不同於自媒體,SEO應以滿足用戶需求的角度來設置標題,而不是吸引眼球。內頁標題設置標准:「核心詞(簡要主內容)_修飾詞1_修飾詞2_網站名稱」,核心詞保持1~2次,不要超過3次,這一點時候我們過去重關鍵詞精密度做法的重要糾正。
2017.8:閃電演算法
移動端打開速度快的網站給予加權,慢的給予降權。「移動端採用CDN加速,採用頁面緩存,不要使用過大圖片。
2017.11-2018.11:移動搜索白皮書
發布《網路移動搜索建站優化白皮書》捍衛移動搜索用戶體驗1、廣告2、APP引導3、主題內容4、首屏5、一屏6、廣告內容7、低俗違禁內容。發布《網路移動搜索建站優化白皮書4.0》優化站點移動端體驗和適配1、主題內容2、首屏3、一屏4、移動端適配5、列表頁6、廣告7、詳情頁8、APP引導9、一跳頁面10、多跳頁面11、資源流程12、移動適配發布《網路搜索網頁標題規范》
2017.11:熊掌號
熊掌號是一個集獨立網站、自媒體平台等等的聚合平台,無論你的獨立博客網站還是沒有網站的自媒體人活著是兩者的結合都可以通過熊掌號把自己創作的內容聚合起來呈現給自己的用戶,用戶關注這個熊掌號平台就形成了一個屬於自己的用戶生態閉環。熊掌號有著自己的專注領域,這有別於百家號的媒體行知,更類似與品牌類公眾號。
2017.11-2018.5:驚雷演算法
打擊刷點擊的快排,重要的網站不輕易嘗試快排。
2018.5:極光演算法
打擊PC端和移動端落地頁面無時間因子或標注不明的網站。在網站內容頁面標注准確的發布或是更新時間。
2018.6:季風演算法
倡導熊掌號領域專注,同年3月發布《懲罰熊掌號領域與內容嚴重不匹配》的公告,偉凡得到將予以打擊,對領域專注的予以扶持。應當發布領域相關的內容。
2018.7:細雨演算法
打擊B2B網站的內容標題存在關鍵詞堆砌行為;打擊企業網站標題包含其他品牌」官網「,誤導用戶。平台型網站內頁標題減少關鍵詞出現頻次,以旅遊行業為例,可參考攜程的酒店頁面標題寫法。企業網站首頁標准盡量不要出現「官網」,除非自己即是該知名品牌。
2019.3:烽火演算法
打擊嚴重危害搜索用戶的網路安全,網站劫持等行為。
2019.4:嚴格控制搜索中的許可權問題
用戶查看網頁中的全部內容時,如:閱讀全文,查看圖片,查看論壇帖子,觀看視頻內容,其他內容獲取。網站強制用戶必須完成指定操作後才可進行查看,包括但不限於以下方式:強制用戶完成網站注冊或登錄,強制用戶下載相關APP,強制用戶在APP查看內容,強制用戶完成其他要求。功能使用許可權:用戶使用網頁中的功能時,如:查看評論詳情,查看相關推薦,撥打電話,內容資源下載,使用其他功能。應當積極整改用於的使用和瀏覽許可權。
2019.5:信風演算法
打擊網站利用翻頁鍵引導用戶的行為,極大地損害了用戶的瀏覽體驗。用戶後點擊翻頁鍵是,自動跳轉至網站的其他頻道頁面(如目錄頁、站外廣告頁面等)不使用翻頁鍵按鈕做不正當的引導和內鏈建設。
建議大家搜藏起來,否則刷著刷著就不見啦!
2. 演算法的起源
演算法來源於著名的Persian Textbook(《波斯教科書》)的作者的名字Abu Ja'far Mohammed ibn Mûsâ al-Khowârizm
演算法(Algorithm)是指解題方案的准確而完整的描述,是一系列解決問題的清晰指令,演算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。
3. ID3演算法背景知識
最初的ID3演算法起源於1975年,由Ross Quinlan在悉尼大學的研究中提出,這在《機器學習》研究所的碩士論文中有所闡述,編號為民國1號。ID3演算法的核心是概念學習系統(CLS)的構建,其基本流程如下:
步驟1:如果所有訓練實例對於特性C都為正,就創建一個「是」節點並停止。相反,如果所有實例都為負,則創建一個「無」節點並停止。接下來,選擇一個特性F(如v1至vn),並在其值的基礎上劃分訓練集為C1、C2等子集。
步驟2:對每個子集遞歸地應用ID3演算法,專家(訓練者)負責決定選擇哪些特性進行劃分。
後續版本的ID3演算法在特徵選擇上加入了啟發式改進,它通過尋找在訓練集中最能區分實例的屬性來進行分割。如果一個屬性可以完全分類訓練集,演算法則停止;否則,它會遞歸地進行n次分割(n為一個屬性可能劃分出的子集數量),選取最優屬性。ID3採用貪心搜索策略,即每次選擇最優屬性,不考慮之前的選擇。
決策樹是一種用於預測的工具,通過數據分類達到目的。其工作原理是首先根據訓練數據生成決策樹,如果樹不能准確分類所有對象,就將部分異常對象添加回訓練集,重復這個過程直到形成正確的決策樹。決策樹由決策節點、分支和葉子組成,根節點位於頂部,決策節點代表問題或決策,而葉子節點則代表分類結果。在分類過程中,從根節點開始,根據測試條件選擇分支,最終到達一個葉子節點,以此判斷對象所屬類別。
4. 遺傳演算法第一次提出來是在什麼文獻中
《搜索、優化和機器學習中的遺傳演算法》。
遺傳演算法(Genetic Algorithm,GA)最早是由美國的 John holland於20世紀70年代提出,該演算法是根據大自然中生物體進化規律而設計提出的。是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。
遺傳演算法的基本運算過程如下:
(1)初始化:設置進化代數計數器t=0,設置最大進化代數T,隨機生成M個個體作為初始群體P(0)。
(2)個體評價:計算群體P(t)中各個個體的適應度。
(3)選擇運算:將選擇運算元作用於群體。選擇的目的是把優化的個體直接遺傳到下一代或通過配對交叉產生新的個體再遺傳到下一代。選擇操作是建立在群體中個體的適應度評估基礎上的。
(4)交叉運算:將交叉運算元作用於群體。遺傳演算法中起核心作用的就是交叉運算元。
(5)變異運算:將變異運算元作用於群體。即是對群體中的個體串的某些基因座上的基因值作變動。群體P(t)經過選擇、交叉、變異運算之後得到下一代群體P(t+1)。
(6)終止條件判斷:若t=T,則以進化過程中所得到的具有最大適應度個體作為最優解輸出,終止計算。
5. GA演算法是什麼
GA演算法,即遺傳演算法(Genetic Algorithm),是一種起源於20世紀80年代初期的搜索優化技術,它借鑒了自然界中生物進化過程的原理。作為啟發式演算法的一種,它最初是為了模仿自然界中的生物種群,如禁忌搜索(Tabu Search)和模擬退火(Simulated Annealing)等方法,通過構建種群、遺傳操作、適應度評估等核心機制,尋找問題的最優解或者近似最優解。其中,禁忌搜索通過限制搜索過程中的某些操作,避免陷入局部最優,而模擬退火則通過設定溫度梯度,允許在一定概率下接受較差解,從而增加搜索空間的探索性。
而GA演算法的另一大分支——蟻群演算法,更是將螞蟻覓食的行為作為靈感,通過構建虛擬的螞蟻群體,每隻螞蟻在問題空間中尋找食物(目標),通過信息素的釋放和感知,引導其他螞蟻尋找最有效路徑。這種演算法強調分布式搜索和協同工作,能夠在復雜問題上展現強大的優化能力。
總的來說,GA演算法是一種模擬自然選擇和遺傳過程的計算技術,通過迭代優化,能夠在解決優化問題、搜索問題空間等方面展現出獨特的優勢。它被廣泛應用於工程優化、機器學習、計算機視覺等多個領域,為復雜問題的求解提供了強大的工具。