頻繁項集挖掘演算法

發布時間: 2023-08-21 13:58:04

關聯, 指的是關聯分析, 這里引用網路的定義.

通過關聯分析, 可以挖掘出"由於某些事件的發生而引起另外一些事件的發生"之類的規則, 比如說"麵包=>牛奶", 其中麵包被稱為規則的前項, 而牛奶則被稱為規則的後項.

常用於關聯分析的演算法有Apriori演算法, FP-growth演算法, Eclat演算法, 灰色關聯法等, 下面將著重介紹Apriori演算法.

在介紹Apriori演算法之前, 我們先來了解幾個概念:
1.事務: 一條交易記錄稱為一個事務
2.項: 交易中的每一個物品稱為一個項
3.項集: 包含0個或多個項的集合
4.支持度計數: 項集在所有事務中出現的次數.
5.支持度: 支持度計數除於總的事務數.
6.頻繁項集: 支持度大於等於某個閥值的項集.

關聯規則的挖掘通常分為兩步: 第一步, 找出所有的頻繁項集; 第二步, 由頻繁項集產沒判答生強關聯規則. 而Apriori演算法則是挖掘頻繁項集的基本演算法.

可以看到以上每個過程均需要掃描一次數據, 為了提高頻繁項集逐層迭代產生的效率, 需要利用一條重要性質, 其稱為先驗性質:

當然, 非頻繁項集的所有超集也一定是非頻繁的.

將先驗性質應用到Apriori演算法中就是將之枯慧前的過程分為兩大部分, 連接步和剪枝步.
連接步: 連接步的目的是產生候選項集.
剪枝步: 應用先驗性質對候選項集進行篩選, 將不滿足先驗性質的候選項集剔除, 再進而根據最小支持度找出頻繁項集, 這樣可以有效縮短計算量.

關聯分析的目標是找出強關聯規則, 因此這里的關聯規則是指強關聯規則, 我們把滿足最小支持度和最小置信度的規則稱為強關聯規則.
對於規則A=>沖敏B, 置信度的計算公式就是項集{A, B}的支持度計數除於項集{A}的支持度計數.

優點: 簡單, 易理解, 對數據要求低
缺點: 容易產生過多的候選項集, I/O負載大.

② 帶你了解數據挖掘中的經典演算法

數據挖掘的演算法有很多，而不同的演算法有著不同的優點，同時也發揮著不同的作用。可以這么說，演算法在數據挖掘中做出了極大的貢獻，如果我們要了解數據挖掘的話就不得不了解這些演算法，下面我們就繼續給大家介紹一下有關數據挖掘的演算法知識。
1.The Apriori algorithm，
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。這個演算法是比較復雜的，但也是十分實用的。
2.最大期望演算法
在統計計算中，最大期望演算法是在概率模型中尋找參數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數。最大期望經常用在機器學習和計算機視覺的數據集聚領域。而最大期望演算法在數據挖掘以及統計中都是十分常見的。
3.PageRank演算法
PageRank是Google演算法的重要內容。PageRank里的page不是指網頁，而是創始人的名字，即這個等級方法是以佩奇來命名的。PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是，每個到頁面的鏈接都是對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。這個就是所謂的「鏈接流行度」，這個標准就是衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多，一般判斷這篇論文的權威性就越高。
3.AdaBoost演算法
Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器，然後把這些弱分類器集合起來，構成一個更強的最終分類器。其演算法本身是通過改變數據分布來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的准確率，來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練，最後將每次訓練得到的分類器最後融合起來，作為最後的決策分類器。這種演算法給數據挖掘工作解決了不少的問題。
數據挖掘演算法有很多，這篇文章中我們給大家介紹的演算法都是十分經典的演算法，相信大家一定可以從中得到有價值的信息。需要告訴大家的是，我們在進行數據挖掘工作之前一定要事先掌握好數據挖掘需呀掌握的各類演算法，這樣我們才能在工總中得心應手，如果基礎不牢固，那麼我們遲早是會被淘汰的。職場如戰場，我們一定要全力以赴。

③ 利用Apriori演算法產生頻繁項集,(min sup=0.6),給出具體計算過程

Apriori演算法是一種發現頻繁項集的基本演算法。演算法使用頻繁項集性質的先驗知識。Apriori演算法使用一種稱為逐層搜索的迭代方法，其中K項集用於探索(k+1)項集。首先，通過掃描資料庫，累計每個項的計數，並收集滿足最小支持度的項，找出頻繁1項集的集合。該集合記為L1.然後，使用L1找出頻繁2項集的集合L2，使用L2找到L3，如此下去，直到不能再找到頻繁k項集。Apriori演算法的主要步驟如下：(1)掃描事務資料庫中的每個事務，產生候選1．項集的集合Cl；(2)根據最小支持度min_sup，由候選l-項集的集合Cl產生頻繁1一項集的集合Ll；(3)對k=l；(4)由Lk執行連接和剪枝操作，產生候選(k+1)．項集的集合Ck+l-(5)根據最小支持度min_sup，由候選(k+1)一項集的集合Ck+l產生頻繁(k+1)-項集的集合Lk+1．(6)若L?≠①，則k．k+1，跳往步驟(4)；否則，跳往步驟(7)；(7)根據最小置信度min_conf,由頻繁項集產生強關聯規則，結束。

④ 數據挖掘的十大經典演算法，總算是講清楚了，想提升自己的趕快收藏

一個優秀的數據分析師，除了要掌握基本的統計學、數據分析思維、數據分析工具之外，還需要掌握基本的數據挖掘思想，幫助我們挖掘出有價值的數據，這也是數據分析專家和一般數據分析師的差距所在。

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 評選出了數據挖掘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不僅僅是選中的十大演算法，其實參加評選的18種演算法，實際上隨便拿出一種來都可以稱得上是經典演算法，它們在數據挖掘領域都產生了極為深遠的影響。今天主要分享其中10種經典演算法，內容較干，建議收藏備用學習。

1. C4.5

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進：

1) 用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足；

2) 在樹構造過程中進行剪枝；

3) 能夠完成對連續屬性的離散化處理；

4) 能夠對不完整數據進行處理。

C4.5演算法有如下優點：產生的分類規則易於理解，准確率較高。其缺點是：在構造樹的過程中，需要對數據集進行多次的順序掃描和排序，因而導致演算法的低效（相對的CART演算法只需要掃描兩次數據集，以下僅為決策樹優缺點）。

2. The k-means algorithm 即K-Means演算法

k-means algorithm演算法是一個聚類演算法，把n的對象根據他們的屬性分為k個分割，k < n。它與處理混合正態分布的最大期望演算法很相似，因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量，並且目標是使各個群組內部的均方誤差總和最小。

3. Support vector machines

支持向量機，英文為Support Vector Machine，簡稱SV機（論文中一般簡稱SVM）。它是一種監督式學習的方法，它廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。

4. The Apriori algorithm

Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。

5. 最大期望(EM)演算法

在統計計算中，最大期望（EM，Expectation–Maximization）演算法是在概率（probabilistic）模型中尋找參數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（Latent Variabl）。最大期望經常用在機器學習和計算機視覺的數據集聚（Data Clustering）領域。

6. PageRank

PageRank是Google演算法的重要內容。2001年9月被授予美國專利，專利人是Google創始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指網頁，而是指佩奇，即這個等級方法是以佩奇來命名的。

PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是，每個到頁面的鏈接都是對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。這個就是所謂的「鏈接流行度」——衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多，一般判斷這篇論文的權威性就越高。

7. AdaBoost

Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器 (強分類器)。其演算法本身是通過改變數據分布來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的准確率，來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練，最後將每次訓練得到的分類器最後融合起來，作為最後的決策分類器。

8. kNN: k-nearest neighbor classification

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

9. Naive Bayes

在眾多的分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBC）。樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。

同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，演算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為NBC模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的性能最為良好。

10. CART: 分類與回歸樹

CART, Classification and Regression Trees。在分類樹下面有兩個關鍵的思想。第一個是關於遞歸地劃分自變數空間的想法（二元切分法）；第二個想法是用驗證數據進行剪枝（預剪枝、後剪枝）。在回歸樹的基礎上的模型樹構建難度可能增加了，但同時其分類效果也有提升。

參考書籍：《機器學習實戰》

⑤ 關聯規則挖掘演算法的介紹

學號：17020110019 姓名：高少魁

【嵌牛導讀】關聯規則挖掘演算法是數據挖掘中的一種常用演算法，用於發現隱藏在大型數據集中令人感興趣的頻繁出現的模式、關聯和相關性。這里將對該演算法進行簡單的介紹，之後通過Apriori演算法作為實例演示演算法執行結果。

【嵌牛鼻子】數據挖掘關聯規則挖掘 python

【嵌牛正文】

一、演算法原理

1、基本概念

關聯規則用於發現隱藏在大型數據集中令人感興趣的頻繁出現的模式、關聯和相關性。而 Apriori演算法則是經典的挖掘頻繁項集的關聯規則演算法，它通過層層迭代來尋找頻繁項集，最後輸出關聯規則：首先掃描數據集，得到 1-頻繁項集，記為 L1，通過合並 L1得到 2-頻繁項集 L2，再通過 L2找到 L3，如此層層迭代，直到找不到頻繁項集為止。

在Apriori演算法中，定義了如下幾個概念：

⚫ 項與項集：設 I={i1,i2,…,im}是由 m個不同項構成的集合，其中的每個 ik(k=1,2,…,m)被稱為一個項 (Item)，項的集合 I被稱為項集和，即項集。在實驗中，每一條購物記錄可以被看做一個項集，用戶購買的某個商品即為一個項。

⚫ 事務與事務集：神乎事務 T是項集 I的一個子集，而事務的全體被稱為事務集。

⚫ 關聯規則：形如 A=>B的表達式，其中， A和 B都屬於項集 I，且 A與 B不相交。

⚫ 支持度：定義如下 support(A=>B) = P(A B)，即 A和 B所含的項在事務集中同時出現的概率。

⚫ 置信度：定義如下 confidence(A⇒B)=support(A⇒B)/support(A)=P(A B)/P(A)=P(B|A)，即如果事務包含 A，則事務中同時出現 B的概率。

⚫ 頻繁項集：如果項集 I的支持度滿足事先定義好的最小支持度閾慧液值（即 I的出現頻度大於相應的最小出現頻度閾值），則 I是頻繁項集。

⚫ 強關聯規則：滿足最小支持度和最小置信度的關聯規則，即待挖掘的關聯規則。

根據以上概念，要實現關聯規則的挖掘，首先要找到所有的頻繁項集，之後找出強關聯規則（即通過多次掃描數據集，找出頻繁集，然後產生關聯規則）。

2、挖掘頻繁項集

在該步驟中有兩個較為重要的部分：連接和修剪。連接步驟即使用k-1頻繁項集，通過連接得到 k-候選項集，並且只有相差一個項的項集才能進行連接，如 {A,B}和 {B,C}連接成為 {A,B,C}。修剪步驟基於一個性質：一個 k-項集，如果它的一個 k-1項集（子集）不是頻繁的，那麼它本身也不可能是頻繁的。因此可以基於這個性質，通過判斷先驗性質來對候選集進行修剪。

3、產生關聯規則

經過連接和修剪之後，即找到了所有的頻繁項集，此時可以在此基礎上產生關聯規則，步驟如下

（1）對於每個頻繁項集 l，產生 l的所有非空子集（這些非空子集一定是頻繁項集）；

（2）對於 l的每一個非空子集 x，計算 confidence(x => (l-x))，如果 confidence(x => (l-x)) confmin，那麼規則 x => (l-x)」成立。

二、演算法設計

1、數據集

通過語句 import xlrd導入相關的庫來進行數據的讀取。數據內容為十條購物記錄，每條購物記錄有若干個商品，表示某個顧客的購買記錄，如圖

對於數據載入部分使用了 xlrd庫中的函數 open_workbook來打開一個表格文件，使用sheet_by_index函數得到一個工作表， row_values函數即可讀取表格中的內容。由於每個購物記錄的商品數不一定相同，導致讀取的內容含有空格 (』』)，因此對數據進行刪減以得到緊湊的數據，最終讀取數據的結果以列表的游碧悉形式返回。

2、連接

對於連接部分，主要目標是根據已有的k-1頻繁項集生成 k-候選頻繁項集。演算法步驟為：首先將項集中的項按照字典順序排序，之後將 k-1項集中兩個項作比較，如果兩個項集中前 k-2個項是相同的，則可以通過或運算（|）將它們連接起來。

3、修剪

修剪操作主要使用一個判斷函數，通過傳入連接操作後的項集和之前的k-1頻繁項集，對新的項集中的每一個項的補集進行判斷，如果該補集不是 k-1頻繁項集的子集，則證明新的項集不滿足先驗性質，即一個頻繁項集的所有非空子集一定是頻繁的，否則就滿足先驗形式。返回布爾類型的參數來供調用它的函數作判斷。

經過連接和修剪步驟之後，項基要成為頻繁項集還必須滿足最小支持度的條件，筆者設計了generateFrequentItems函數來對連接、修剪後產生的 k-候選項集進行判斷，通過遍歷數據集，計算其支持度，滿足最小支持度的項集即是一個頻繁項集，可將其返回。

以上，經過不斷的遍歷、連接、修剪、刪除，可將得到的所有結果以列表形式返回。筆者還設計了字典類型的變數 support_data，以得到某個頻繁項集及其支持度。

4、挖掘關聯規則

generateRules函數用來挖掘關聯規則，通過傳入最小置信度、頻繁項集及其支持度來生成規則。根據定理：對於頻繁項集 l的每一個非空子集 x，計算 confidence(x => (l-x))，如果 confidence(x => (l-x)) confmin，那麼規則 x => (l-x)」成立，因此，該函數重點在掃描頻繁項集，得到每一個子集，並計算置信度，當置信度滿足條件（即大於等於最小置信度）時，生成一條規則。在函數中，使用了元組來表示一條規則，元組中包含 x、 l-x以及其置信度，最後返回生成的所有規則的列表。

三、演算法執行結果

設置最大頻繁項集數k為 3，最小支持度為 0.2，最小置信度為 0.8 使用 pycharm運行程序，得到以下結果：

由圖中結果可以看出，對於頻繁 1-項集，有五個滿足的項集，頻繁 2-項集有 6個，頻繁 3-項集有 2個，它們都滿足支持度大於或等於最小支持度 0.2。根據頻繁項集，程序得到的關聯規則有三條，即 {麵包 }=>{牛奶 }，，{雞蛋 }=>{牛奶 }，，{麵包，蘋果 }=>{牛奶其中，這些規則的置信度都是 1.0，滿足大於或等於最小置信度 0.8的條件。

四、程序源碼

閱讀全文

熱點內容

安卓文檔文件夾在哪裡發布：2025-03-09 21:50:59 瀏覽：226

mysql的建的資料庫在哪發布：2025-03-09 21:48:34 瀏覽：135

怎麼打開伺服器80埠發布：2025-03-09 21:48:33 瀏覽：213

pdb如何配置dns 發布：2025-03-09 21:47:00 瀏覽：937

網吧卡號和密碼怎麼填發布：2025-03-09 21:46:28 瀏覽：744

我的世界最火的伺服器國際版電腦發布：2025-03-09 21:45:32 瀏覽：792

手機游戲腳本大全發布：2025-03-09 21:43:26 瀏覽：778

java中的hashcode 發布：2025-03-09 21:42:30 瀏覽：856

php彈窗代碼發布：2025-03-09 21:40:26 瀏覽：284

阿里雲gpu伺服器價格發布：2025-03-09 21:39:18 瀏覽：178

頻繁項集挖掘演算法

與頻繁項集挖掘演算法相關的資訊