十種演算法思想

發布時間: 2023-08-02 15:26:36

A. 數據挖掘的十大經典演算法，總算是講清楚了，想提升自己的趕快收藏

一個優秀的數據分析師，除了要掌握基本的統計學、數據分析思維、數據分析工具之外，還需要掌握基本的數據挖掘思想，幫助我們挖掘出有價值的數據，這也是數據分析專家和一般數據分析師的差距所在。

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 評選出了數據挖掘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不僅僅是選中的十大演算法，其實參加評選的18種演算法，實際上隨便拿出一種來都可以稱得上是經典演算法，它們在數據挖掘領域都產生了極為深遠的影響。今天主要分享其中10種經典演算法，內容較干，建議收藏備用學習。

1. C4.5

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進：

1) 用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足；

2) 在樹構造過程中進行剪枝；

3) 能夠完成對連續屬性的離散化處理；

4) 能夠對不完整數據進行處理。

C4.5演算法有如下優點：產生的分類規則易於理解，准確率較高。其缺點是：在構造樹的過程中，需要對數據集進行多次的順序掃描和排序，因而導致演算法的低效（相對的CART演算法只需要掃描兩次數據集，以下僅為決策樹優缺點）。

2. The k-means algorithm 即K-Means演算法

k-means algorithm演算法是一個聚類演算法，把n的對象根據他們的屬性分為k個分割，k < n。它與處理混合正態分布的最大期望演算法很相似，因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量，並且目標是使各個群組內部的均方誤差總和最小。

3. Support vector machines

支持向量機，英文為Support Vector Machine，簡稱SV機（論文中一般簡稱SVM）。它是一種監督式學習的方法，它廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。

4. The Apriori algorithm

Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。

5. 最大期望(EM)演算法

在統計計算中，最大期望（EM，Expectation–Maximization）演算法是在概率（probabilistic）模型中尋找參數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（Latent Variabl）。最大期望經常用在機器學習和計算機視覺的數據集聚（Data Clustering）領域。

6. PageRank

PageRank是Google演算法的重要內容。2001年9月被授予美國專利，專利人是Google創始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指網頁，而是指佩奇，即這個等級方法是以佩奇來命名的。

PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是，每個到頁面的鏈接都是對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。這個就是所謂的「鏈接流行度」——衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多，一般判斷這篇論文的權威性就越高。

7. AdaBoost

Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器 (強分類器)。其演算法本身是通過改變數據分布來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的准確率，來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練，最後將每次訓練得到的分類器最後融合起來，作為最後的決策分類器。

8. kNN: k-nearest neighbor classification

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

9. Naive Bayes

在眾多的分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBC）。樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。

同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，演算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為NBC模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的性能最為良好。

10. CART: 分類與回歸樹

CART, Classification and Regression Trees。在分類樹下面有兩個關鍵的思想。第一個是關於遞歸地劃分自變數空間的想法（二元切分法）；第二個想法是用驗證數據進行剪枝（預剪枝、後剪枝）。在回歸樹的基礎上的模型樹構建難度可能增加了，但同時其分類效果也有提升。

參考書籍：《機器學習實戰》

B. 數學建模的十大演算法

1、蒙特卡羅演算法（該演算法又稱隨機性模擬演算法，是通過計算機模擬來解決問題的演算法，
同時可以通過模擬可以來檢驗自己模型的正確性，是比賽時必用的方法）
2、數據擬合、參數估計、插值等數據處理演算法（比賽中通常會遇到大量的數據需要處理，
而處理數據的關鍵就在於這些演算法，通常使用Matlab作為工具）
3、線性規劃、整數規劃、多元規劃、二次規劃等規劃類問題（建模競賽大多數問題屬於最優化問題，
很多時候這些問題可以用數學規劃演算法來描述，通常使用Lindo、Lingo軟體實現）
4、圖論演算法（這類演算法可以分為很多種，包括最短路、網路流、二分圖等演算法，
涉及到圖論的問題可以用這些方法解決，需要認真准備）
5、動態規劃、回溯搜索、分治演算法、分支定界等計算機演算法（這些演算法是演算法設計中比較常用的方法，很多場合可以用到競賽中）
6、最優化理論的三大非經典演算法：模擬退火法、神經網路、遺傳演算法
（這些問題是用來解決一些較困難的最優化問題的演算法，對於有些問題非常有幫助，
但是演算法的實現比較困難，需慎重使用）
7、網格演算法和窮舉法（網格演算法和窮舉法都是暴力搜索最優點的演算法，在很多競賽題中有應用，
當重點討論模型本身而輕視演算法的時候，可以使用這種暴力方案，最好使用一些高級語言作為編程工具）
8、一些連續離散化方法（很多問題都是實際來的，數據可以是連續的，而計算機只認的是離散的數據，因此將其離散化後進行差分代替微分、求和代替積分等思想是非常重要的）
9、數值分析演算法（如果在比賽中採用高級語言進行編程的話，那一些數值分析中常用的演算法比
如方程組求解、矩陣運算、函數積分等演算法就需要額外編寫庫函數進行調用）
10、圖象處理演算法（賽題中有一類問題與圖形有關，即使與圖形無關，論文中也應該要不乏圖片的，
這些圖形如何展示以及如何處理就是需要解決的問題，通常使用Matlab進行處理）

C. 面試官常問十大經典演算法排序（用python實現）

演算法是一種與語言無關的東西，更確切地說就算解決問題的思路，就是一個通用的思想的問題。代碼本身不重要，演算法思想才是重中之重

我們在面試的時候總會被問到一下演算法，雖然演算法是一些基礎知識，但是難起來也會讓人非常頭疼。

排序演算法應該算是一些簡單且基礎的演算法，但是我們可以從簡單的演算法排序鍛煉我們的演算法思維。這里我就介紹經典十大演算法用python是怎麼實現的。

十大經典演算法可以分為兩大類：

比較排序： 通過對數組中的元素進行比較來實現排序。

非比較排序： 不通過比較來決定元素間的相對次序。

演算法復雜度

冒泡排序比較簡單，幾乎所有語言演算法都會涉及的冒泡演算法。

基本原理是兩兩比較待排序數據的大小，當兩個數據的次序不滿足順序條件時即進行交換，反之，則保持不變。

每次選擇一個最小（大）的，直到所有元素都被輸出。

將第一個元素逐個插入到前面的有序數中，直到插完所有元素為止。

從大范圍到小范圍進行比較-交換，是插入排序的一種，它是針對直接插入排序演算法的改進。先對數據進行預處理，使其基本有序，然後再用直接插入的排序演算法排序。

該演算法是採用 分治法 對集合進行排序。

把長度為n的輸入序列分成兩個長度為n/2的子序列，對這兩個子序列分別採用歸並排序，最終合並成序列。

選取一個基準值，小數在左大數在在右。

利用堆這種數據結構所設計的一種排序演算法。

堆是一個近似完全二叉樹的結構，並同時滿足堆積的性質：即子結點的鍵值或索引總是小於（或者大於）它的父節點。利用最大堆和最小堆的特性。

採用字典計數-還原的方法，找出待排序的數組中最大和最小的元素，統計數組中每個值為i的元素出現的次數，對所有的計數累加，將每個元素放在新數組依次排序。

設置一個定量的數組當作空桶；遍歷輸入數據，並且把數據一個一個放到對應的桶里去；對每個不是空的桶進行排序；從不是空的桶里把排好序的數據拼接起來。

元素分布在桶中：

然後，元素在每個桶中排序：

取得數組中的最大數，並取得位數；從最低位開始取每個位組成新的數組；然後進行計數排序。

上面就是我整理的十大排序演算法，希望能幫助大家在演算法方面知識的提升。看懂之後可以去試著自己到電腦上運行一遍。最後說一下每個排序是沒有調用數據的，大家記得實操的時候要調用。

參考地址：https://www.runoob.com/w3cnote/ten-sorting-algorithm.html

D. 演算法是什麼

演算法是指解題方案的准確而完整的描述，是一系列解決問題的清晰指令。

演算法代表著用系統的方法描述解決問題的策略機制，也就是說，能夠對一定規范的輸入，在有限時間內獲得所要求的輸察並臘出。如果一個演算法有缺陷，或不適合於某個問題，執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間，空間或效率來完成同樣的任務。

演算法中的指令描述的是一個計算。當其運行時能從一個初始狀態和初始輸入開始，經過一系列有限而清晰定義的狀態，最終產生輸出並停止於一個終態，一個狀態到另一個狀態的轉移不一定是確定的。

演算法思想：

1、遞推法

遞推是序列計算機中的一種常用演算法，它是按照一定的規律來計算序列中的每個項，通常是通過計算機前面的一些項來得出序列中的指定項的值。其思想是把一個復雜蔽卜的龐大的計算過程轉化為簡單過程的多次重復，該演算法利用了計算機速度快和不知疲倦的機器特點。

2、遞歸法

程序調用自身的編程技巧稱為遞歸，一個過程或函數在其定義或說明中有直接或間接調用自身的一種方法。它通常把一個大型復雜的問題層層轉化為一個與原問題相似的規模較小的問題來求解，遞歸策略只需少量的程序就可描述出解題過程所需敗滑要的多次重復計算。

以上內容參考：網路—演算法

E. 描述演算法的常用方法

1.什麼是演算法
從字面上來說，演算法也就是用於計算的方法。是用來解決某些問題的方法。通過這個方法，可以達到想要的計算結果。它就像我們小時候學些的一些數學公式和解題步驟。
演算法，一般有5個特徵：

有窮性：
演算法的執行步驟、時間、都是有限的。不會無休止的一直執行下去。
確切性：
演算法的每一步都必須有明確的定義和描述。
輸入：
一個演算法應該有相應的輸入條件，就像我們小時候做的應用題，已知什麼什麼。來求某個結果，已知部分便是輸入條件。
輸出：
演算法必須有明確的結果輸出。沒有結果，那這個演算法是沒有任何意義的。
可行性：
演算法的步驟必須是可行的，無法執行的則沒有意義，也解決不了任何問題
2.演算法的分類
按照演算法的應用來分：演算法可以分為基本演算法、幾何演算法、加密/解密演算法、查找演算法、圖標數據分析演算法等。
按照演算法的思路來分：演算法可以分為遞推演算法、遞歸演算法、窮舉演算法、分治演算法等。

下面，我們就來講我們的重點之一：也就是演算法思想：

3.常用演算法思想
窮舉演算法思想;
遞推演算法思想;
遞歸演算法思想;
分治演算法思想;
概率演算法思想;

F. 數據挖掘十大演算法-

整理里一晚上的數據挖掘演算法，其中主要引自wiki和一些論壇。發布到上作為知識共享，但是發現Latex的公式轉碼到網頁的時候出現了丟失，暫時沒找到解決方法，有空再回來填坑了。

——編者按

一、 C4.5

C4.5演算法是由Ross Quinlan開發的用於產生決策樹的演算法[1]，該演算法是對Ross Quinlan之前開發的ID3演算法的一個擴展。C4.5演算法主要應用於統計分類中，主要是通過分析數據的信息熵建立和修剪決策樹。

1.1 決策樹的建立規則

在樹的每個節點處，C4.5選擇最有效地方式對樣本集進行分裂，分裂規則是分析所有屬性的歸一化的信息增益率，選擇其中增益率最高的屬性作為分裂依據，然後在各個分裂出的子集上進行遞歸操作。

依據屬性A對數據集D進行分類的信息熵可以定義如下：

劃分前後的信息增益可以表示為：

那麼，歸一化的信息增益率可以表示為：

1.2 決策樹的修剪方法

C4.5採用的剪枝方法是悲觀剪枝法(Pessimistic Error Pruning，PEP)，根據樣本集計運算元樹與葉子的經驗錯誤率，在滿足替換標准時，使用葉子節點替換子樹。

不妨用K表示訓練數據集D中分類到某一個葉子節點的樣本數，其中其中錯誤分類的個數為J，由於用估計該節點的樣本錯誤率存在一定的樣本誤差，因此用表示修正後的樣本錯誤率。那麼，對於決策樹的一個子樹S而言，設其葉子數目為L(S)，則子樹S的錯誤分類數為：

設數據集的樣本總數為Num，則標准錯誤可以表示為：

那麼，用表示新葉子的錯誤分類數，則選擇使用新葉子節點替換子樹S的判據可以表示為：

二、KNN

最近鄰域演算法(k-nearest neighbor classification, KNN)[2]是一種用於分類和回歸的非參數統計方法。KNN演算法採用向量空間模型來分類，主要思路是相同類別的案例彼此之間的相似度高，從而可以藉由計算未知樣本與已知類別案例之間的相似度，來實現分類目標。KNN是一種基於局部近似和的實例的學習方法，是目前最簡單的機器學習演算法之一。

在分類問題中，KNN的輸出是一個分類族群，它的對象的分類是由其鄰居的「多數表決」確定的，k個最近鄰居（k為正整數，通常較小）中最常見的分類決定了賦予該對象的類別。若k = 1，則該對象的類別直接由最近的一個節點賦予。在回歸問題中，KNN的輸出是其周圍k個鄰居的平均值。無論是分類還是回歸，衡量鄰居的權重都非常重要，目標是要使較近鄰居的權重比較遠鄰居的權重大，例如，一種常見的加權方案是給每個鄰居權重賦值為1/d，其中d是到鄰居的距離。這也就自然地導致了KNN演算法對於數據的局部結構過於敏感。

三、Naive Bayes

在機器學習的眾多分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model，NBC)[3]。樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，演算法也比較簡單。

在假設各個屬性相互獨立的條件下，NBC模型的分類公式可以簡單地表示為：

但是實際上問題模型的屬性之間往往是非獨立的，這給NBC模型的分類准確度帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型；而在屬性相關性較小時，NBC模型的性能最為良好。

四、CART

CART演算法(Classification And Regression Tree)[4]是一種二分遞歸的決策樹，把當前樣本劃分為兩個子樣本，使得生成的每個非葉子結點都有兩個分支，因此CART演算法生成的決策樹是結構簡潔的二叉樹。由於CART演算法構成的是一個二叉樹，它在每一步的決策時只能是「是」或者「否」，即使一個feature有多個取值，也是把數據分為兩部分。在CART演算法中主要分為兩個步驟：將樣本遞歸劃分進行建樹過程；用驗證數據進行剪枝。

五、K-means

k-平均演算法(k-means clustering)[5]是源於信號處理中的一種向量量化方法，現在則更多地作為一種聚類分析方法流行於數據挖掘領域。k-means的聚類目標是：把n個點（可以是樣本的一次觀察或一個實例）劃分到k個聚類中，使得每個點都屬於離他最近的均值（此即聚類中心）對應的聚類。

5.1 k-means的初始化方法

通常使用的初始化方法有Forgy和隨機劃分(Random Partition)方法。Forgy方法隨機地從數據集中選擇k個觀測作為初始的均值點；而隨機劃分方法則隨機地為每一觀測指定聚類，然後執行「更新」步驟,即計算隨機分配的各聚類的圖心，作為初始的均值點。Forgy方法易於使得初始均值點散開，隨機劃分方法則把均值點都放到靠近數據集中心的地方；隨機劃分方法一般更適用於k-調和均值和模糊k-均值演算法。對於期望-最大化(EM)演算法和標准k-means演算法，Forgy方法作為初始化方法的表現會更好一些。

5.2 k-means的標准演算法

k-means的標准演算法主要包括分配(Assignment)和更新(Update)，在初始化得出k個均值點後，演算法將會在這兩個步驟中交替執行。

分配(Assignment)：將每個觀測分配到聚類中，使得組內平方和達到最小。

更新(Update)：對於上一步得到的每一個聚類，以聚類中觀測值的圖心，作為新的均值點。

六、Apriori

Apriori演算法[6]是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法，其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。Apriori採用自底向上的處理方法，每次只擴展一個對象加入候選集，並且使用數據集對候選集進行檢驗，當不再產生匹配條件的擴展對象時，演算法終止。

Apriori的缺點在於生成候選集的過程中，演算法總是嘗試掃描整個數據集並盡可能多地添加擴展對象，導致計算效率較低；其本質上採用的是寬度優先的遍歷方式，理論上需要遍歷次才可以確定任意的最大子集S。

七、SVM

支持向量機(Support Vector Machine, SVM)[7]是在分類與回歸分析中分析數據的監督式學習模型與相關的學習演算法。給定一組訓練實例，每個訓練實例被標記為屬於兩個類別中的一個或另一個，SVM訓練演算法創建一個將新的實例分配給兩個類別之一的模型，使其成為非概率二元線性分類器。SVM模型是將實例表示為空間中的點，這樣映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開。然後，將新的實例映射到同一空間，並基於它們落在間隔的哪一側來預測所屬類別。

除了進行線性分類之外，SVM還可以使用所謂的核技巧有效地進行非線性分類，將其輸入隱式映射到高維特徵空間中，即支持向量機在高維或無限維空間中構造超平面或超平面集合，用於分類、回歸或其他任務。直觀來說，分類邊界距離最近的訓練數據點越遠越好，因為這樣可以縮小分類器的泛化誤差。

八、EM

最大期望演算法(Expectation–Maximization Algorithm, EM)[7]是從概率模型中尋找參數最大似然估計的一種演算法。其中概率模型依賴於無法觀測的隱性變數。最大期望演算法經常用在機器學習和計算機視覺的數據聚類（Data Clustering）領域。最大期望演算法經過兩個步驟交替進行計算，第一步是計算期望(E)，利用對隱藏變數的現有估計值，計算其最大似然估計值；第二步是最大化(M)，最大化在E步上求得的最大似然值來計算參數的值。M步上找到的參數估計值被用於下一個E步計算中，這個過程不斷交替進行。

九、PageRank

PageRank演算法設計初衷是根據網站的外部鏈接和內部鏈接的數量和質量對網站的價值進行衡量。PageRank將每個到網頁的鏈接作為對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。

演算法假設上網者將會不斷點網頁上的鏈接，當遇到了一個沒有任何鏈接出頁面的網頁，這時候上網者會隨機轉到另外的網頁開始瀏覽。設置在任意時刻，用戶到達某頁面後並繼續向後瀏覽的概率，該數值是根據上網者使用瀏覽器書簽的平均頻率估算而得。PageRank值可以表示為：

其中，是被研究的頁面集合，N表示頁面總數，是鏈接入頁面的集合，是從頁面鏈接處的集合。

PageRank演算法的主要缺點是的主要缺點是舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多外鏈，除非它是某個站點的子站點。

十、AdaBoost

AdaBoost方法[10]是一種迭代演算法，在每一輪中加入一個新的弱分類器，直到達到某個預定的足夠小的錯誤率。每一個訓練樣本都被賦予一個權重，表明它被某個分類器選入訓練集的概率。如果某個樣本點已經被准確地分類，那麼在構造下一個訓練集中，它被選中的概率就被降低；相反，如果某個樣本點沒有被准確地分類，那麼它的權重就得到提高。通過這樣的方式，AdaBoost方法能「聚焦於」那些較難分的樣本上。在具體實現上，最初令每個樣本的權重都相等，對於第k次迭代操作，我們就根據這些權重來選取樣本點，進而訓練分類器Ck。然後就根據這個分類器，來提高被它分錯的的樣本的權重，並降低被正確分類的樣本權重。然後，權重更新過的樣本集被用於訓練下一個分類器Ck[，並且如此迭代地進行下去。

AdaBoost方法的自適應在於：前一個分類器分錯的樣本會被用來訓練下一個分類器。AdaBoost方法對於雜訊數據和異常數據很敏感。但在一些問題中，AdaBoost方法相對於大多數其它學習演算法而言，不會很容易出現過擬合現象。AdaBoost方法中使用的分類器可能很弱（比如出現很大錯誤率），但只要它的分類效果比隨機好一點（比如兩類問題分類錯誤率略小於0.5），就能夠改善最終得到的模型。而錯誤率高於隨機分類器的弱分類器也是有用的，因為在最終得到的多個分類器的線性組合中，可以給它們賦予負系數，同樣也能提升分類效果。

引用

[1] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

[2] Altman, N. S. An introction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879

[3] Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6

[4] decisiontrees.net Interactive Tutorial

[5] Hamerly, G. and Elkan, C. Alternatives to the k-means algorithm that find better clusterings (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM). 2002

[6] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.

[7] Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 1995, 20 (3): 273–297. doi:10.1007/BF00994018

[8] Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977

[9] Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]

[10] Freund, Yoav; Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. CiteSeerX: 10.1.1.56.9855

G. 10個常用演算法

原理：
二分法查找，也稱為折半法，是一種在有序數組中查找特定元素的搜索演算法。

一般步驟：
（1）確定該區間的中間位置K；
（2）將查找的值T與array[k]比較。
若相等，查找成功返回此位置；否則確定新的查找區域，繼續二分查找。每一次查找與中間值比較，可以確定是否查找成功，不成功當前查找區間將縮小一半，遞歸查找即可。

原理：
一種通過重復將問題分解為同類的子問題而解決問題的方法

典型例子：
斐波那契數列
描述： 斐波那契數列 指的是這樣一個數列 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233，377，610，987，1597，2584，4181，6765，10946，17711，28657，46368.....自然中的斐波那契數列") 自然中的斐波那契數列，這個數列從第3項開始，每一項都等於前兩項之和。

解決方式：

原理：
在搜索嘗試過程中尋找問題的解，當發現已不滿足求解條件時，就「回溯」返回，嘗試別的路徑。
回溯法是一種選優搜索法，按選優條件向前搜索，以達到目標。
但當探索到某一步時，發現原先選擇並不優或達不到目標，就退回一步重新選擇，這種走不通就退回再走的技術為回溯法，而滿足回溯條件的某個狀態的點稱為「回溯點」。

解決問題一般步驟：
1、針對所給問題，定義問題的解空間，它至少包含問題的一個（最優）解。

2 、確定易於搜索的解空間結構,使得能用回溯法方便地搜索整個解空間。

3 、以深度優先的方式搜索解空間，並且在搜索過程中用剪枝函數避免無效搜索。

典型例子：
八皇後問題
描述：在8×8格的國際象棋上擺放八個皇後，使其不能互相攻擊，即任意兩個皇後都不能處於同一行、同一列或同一斜線上，問有多少種擺法。

解決方式： https://blog.csdn.net/weixin_41865447/article/details/80034433

概念：
將雜亂無章的數據元素，通過一定的方法按關鍵字順序排列的過程叫做排序。

分類：
非穩定排序演算法：快速排序、希爾排序、堆排序、直接選擇排序
穩定的排序演算法：基數排序、冒泡排序、直接插入排序、折半插入排序、歸並排序

十個常用排序演算法

利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況，從而求出問題的解的一種方法。

分類：
枚舉演算法、深度優先搜索、廣度優先搜索、A*演算法、回溯演算法、蒙特卡洛樹搜索、散列函數等演算法。

將一個數據轉換為一個標志，這個標志和源數據的每一個位元組都有十分緊密的關系。

很難找到逆向規律

只要符合散列思想的演算法都可以被稱為是Hash演算法

對不同的關鍵字可能得到同一散列地址，即key1≠key2，而f(key1)=f(key2)，這種現象稱為碰撞。

原理
在對問題求解時，總是做出在當前看來是最好的選擇。也就是說，不從整體最優上加以考慮，他所做出的是在 某種意義上的局部最優解 。
從問題的某一個初始解出發一步一步地進行，根據某個優化測度，每一步都要確保能獲得局部最優解。每一步只考慮一個數據，他的選取應該滿足局部優化的條件。若下一個數據和部分最優解連在一起不再是可行解時，就不把該數據添加到部分解中，直到把所有數據枚舉完，或者不能再添加演算法停止。

一種近似演算法

一般步驟：
1、建立數學模型來描述問題；
2、把求解的問題分成若干個子問題；
3、對每一子問題求解，得到子問題的局部最優解；
4、把子問題的解局部最優解合成原來解問題的一個解。

典型例子：
0/1背包問題
馬踏棋盤
均分紙牌

例題： https://www.cnblogs.com/hust-chen/p/8646009.html

概念：
分治演算法的基本思想是將一個規模為N的問題分解為K個規模較小的子問題，這些子問題相互獨立且與原問題性質相同。求出子問題的解，就可得到原問題的解。即一種分目標完成程序演算法，簡單問題可用二分法完成。

一般步驟：
（1）分解，將要解決的問題劃分成若干規模較小的同類問題；
（2）求解，當子問題劃分得足夠小時，用較簡單的方法解決；
（3）合並，按原問題的要求，將子問題的解逐層合並構成原問題的解。

典型例子：
排序中：歸並排序、堆排序、快速排序；
實例：找偽幣、求最值、棋盤覆蓋

https://ke..com/item/%E5%88%86%E6%B2%BB%E7%AE%97%E6%B3%95/3263297

概念：
用於求解具有某種最優性質的問題。在這類問題中，可能會有許多可行解。每一個解都對應於一個值，我們希望找到具有最優值的解。

動態規劃一般可分為線性動規，區域動規，樹形動規，背包動規四類。

舉例：
線性動規：攔截導彈，合唱隊形，挖地雷，建學校，劍客決斗等；
區域動規：石子合並，加分二叉樹，統計單詞個數，炮兵布陣等；
樹形動規：貪吃的九頭龍，二分查找樹，聚會的歡樂，數字三角形等；
背包問題：01背包問題，完全背包問題，分組背包問題，二維背包，裝箱問題，擠牛奶（同濟）等；

應用實例：
最短路徑問題，項目管理，網路流優化等；

https://ke..com/item/%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92/529408?fromtitle=%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92%E7%AE%97%E6%B3%95&fromid=15742703&fr=aladdin

概念：
在一個給定的字元文本內搜尋出自己想要找的一個字元串，平常所用的各種文本編輯器里的ctrl+F大多就是使用的這些字元匹配演算法。

分類：
KMP、BM、Sunday、Horspool、RK

參考：
https://cloud.tencent.com/developer/news/282694
https://blog.csdn.net/paincupid/article/details/81159320

H. 大數據挖掘的演算法有哪些

大數據挖掘的演算法：
1.樸素貝葉斯，超級簡單，就像做一些數數的工作。如果條件獨立假設成立的話，NB將比鑒別模型收斂的更快，所以你只需要少量的訓練數據。即使條件獨立假設不成立，NB在實際中仍然表現出驚人的好。
2. Logistic回歸，LR有很多方法來對模型正則化。比起NB的條件獨立性假設，LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同，NB有很好的概率解釋，且很容易利用新的訓練數據來更新模型。如果你想要一些概率信息或者希望將來有更多數據時能方便的更新改進模型，LR是值得使用的。
3.決策樹，DT容易理解與解釋。DT是非參數的，所以你不需要擔心野點（或離群點）和數據是否線性可分的問題，DT的主要缺點是容易過擬合，這也正是隨機森林等集成學習演算法被提出來的原因。
4.支持向量機，很高的分類正確率，對過擬合有很好的理論保證，選取合適的核函數，面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。

如果想要或許更多更詳細的訊息，建議您去參加CDA數據分析課程。大數據分析師現在有專業的國際認證證書了，CDA，即「CDA 數據分析師」，是在數字經濟大背景和人工智慧時代趨勢下，面向全行業的專業權威國際資格認證，旨在提升全民數字技能，助力企業數字化轉型，推動行業數字化發展。「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、提供決策的新型數據分析人才。點擊預約免費試聽課。

閱讀全文

熱點內容

咖啡源碼發布：2025-03-14 13:51:32 瀏覽：166

android漂亮的listview 發布：2025-03-14 13:40:26 瀏覽：390

android路線規劃發布：2025-03-14 13:23:22 瀏覽：302

poi瀏覽器島風go緩存發布：2025-03-14 13:10:24 瀏覽：187

具體可要說存儲在鋼瓶中是因為發布：2025-03-14 13:00:36 瀏覽：440

汽車空調壓縮機不轉了發布：2025-03-14 12:55:45 瀏覽：30

安卓和平營地cp怎麼組發布：2025-03-14 12:55:40 瀏覽：604

時序模式演算法發布：2025-03-14 12:50:45 瀏覽：203

爐石傳說標准模式多腳本發布：2025-03-14 12:47:53 瀏覽：210

密碼鎖用密碼打不開是什麼原因發布：2025-03-14 12:31:25 瀏覽：196

十種演算法思想

與十種演算法思想相關的資訊