聚類演算法研究
① 什麼是聚類分析聚類演算法有哪幾種
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於
分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行
定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識
難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又
將多元分析的技術引入到數值分類學形成了聚類分析。
聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論
聚類法、聚類預報法等。
聚類分析計算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical
methods):基於密度的方法(density-based methods): 基於網格的方法(grid-based
methods): 基於模型的方法(model-based methods)。
② 數據挖掘,聚類分析演算法研究的目的和意義是什麼!
圖像分割
基本原理:根據圖像的組成結構和應用需求將圖像劃分為若干個互不相交的子區域的過程。這些子區域四某種意義下具有共同屬性的像素的連通集合。常用方法有:
1) 以區域為對象進行分割,以相似性原則作為分割的依據,即可根據圖像的灰度、色彩、變換關系等方面的特徵相似來劃分圖像的子區域,並將各像素劃歸到相應物體或區域的像素聚類方法,即區域法;
2) 以物體邊界為對象進行分割,通過直接確定區域間的邊界來實現分割;
3) 先檢測邊緣像素,再將邊緣像素連接起來構成邊界形成分割。
具體的閾值分割:
閾值分割方法分為以下3類:
1) 全局閾值:T=T[p(x,y)〕,即僅根據f(x,y)來選取閾值,閾值僅與各個圖像像素的本身性質有關。
2) 局部閾值:T=T[f(x,y),p(x,y)],閾值與圖像像素的本身性質和局部區域性質相關。
3) 動態閾值:T=T[x,y,f(x,y),p(x,y)],閾值與像素坐標,圖像像素的本身性質和局部區域性質相關。
全局閾值對整幅圖像僅設置一個分割閾值,通常在圖像不太復雜、灰度分布較集中的情況下採用;局部閾值則將圖像劃分為若干個子圖像,並對每個子圖像設定局部閾值;動態閾值是根據空間信息和灰度信息確定。局部閾值分割法雖然能改善分割效果,但存在幾個缺點:
1) 每幅子圖像的尺寸不能太小,否則統計出的結果無意義。
2) 每幅圖像的分割是任意的,如果有一幅子圖像正好落在目標區域或背景區域,而根據統計結果對其進行分割,也許會產生更差的結果。
3) 局部閾值法對每一幅子圖像都要進行統計,速度慢,難以適應實時性的要求。
全局閾值分割方法在圖像處理中應用比較多,它在整幅圖像內採用固定的閾值分割圖像。考慮到全局閾值分割方法應用的廣泛性,本文所著重討論的就是全局閾值分割方法中的直方圖雙峰法和基於遺傳演算法的最大類間方差法。在本節中,將重點討論灰度直方圖雙峰法,最大類間方差法以及基於遺傳演算法的最大類間方差法留待下章做繼續深入地討論。
參詳《數字圖像處理》工具:MATLAB或VC++
③ 聚類的研究情況
傳統的聚類已經比較成功的解決了低維數據的聚類問題。但是由於實際應用中數據的復雜性,在處理許多問題時,現有的演算法經常失效,特別是對於高維數據和大型數據的情況。因為傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。
高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數據聚類也是聚類技術的難點。隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。但是,受「維度效應」的影響,許多在低維數據空間表現良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數據聚類分析是聚類分析中一個非常活躍的領域,同時它也是一個具有挑戰性的工作。高維數據聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應用。
④ 大數據分析之聚類演算法
大數據分析之聚類演算法
1. 什麼是聚類演算法
所謂聚類,就是比如給定一些元素或者對象,分散存儲在資料庫中,然後根據我們感興趣的對象屬性,對其進行聚集,同類的對象之間相似度高,不同類之間差異較大。最大特點就是事先不確定類別。
這其中最經典的演算法就是KMeans演算法,這是最常用的聚類演算法,主要思想是:在給定K值和K個初始類簇中心點的情況下,把每個點(亦即數據記錄)分到離其最近的類簇中心點所代表的類簇中,所有點分配完畢之後,根據一個類簇內的所有點重新計算該類簇的中心點(取平均值),然後再迭代的進行分配點和更新類簇中心點的步驟,直至類簇中心點的變化很小,或者達到指定的迭代次數。
KMeans演算法本身思想比較簡單,但是合理的確定K值和K個初始類簇中心點對於聚類效果的好壞有很大的影響。
聚類演算法實現
假設對象集合為D,准備劃分為k個簇。
基本演算法步驟如下:
1、從D中隨機取k個元素,作為k個簇的各自的中心。
2、分別計算剩下的元素到k個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。
3、根據聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數。
4、將D中全部元素按照新的中心重新聚類。
5、重復第4步,直到聚類結果不再變化。
6、將結果輸出。
核心Java代碼如下:
/**
* 迭代計算每個點到各個中心點的距離,選擇最小距離將該點劃入到合適的分組聚類中,反復進行,直到
* 分組不再變化或者各個中心點不再變化為止。
* @return
*/
public List[] comput() {
List[] results = new ArrayList[k];//為k個分組,分別定義一個聚簇集合,未來放入元素。
boolean centerchange = true;//該變數存儲中心點是否發生變化
while (centerchange) {
iterCount++;//存儲迭代次數
centerchange = false;
for (int i = 0; i < k; i++) {
results[i] = new ArrayList<T>();
}
for (int i = 0; i < players.size(); i++) {
T p = players.get(i);
double[] dists = new double[k];
for (int j = 0; j < initPlayers.size(); j++) {
T initP = initPlayers.get(j);
/* 計算距離 這里採用的公式是兩個對象相關屬性的平方和,最後求開方*/
double dist = distance(initP, p);
dists[j] = dist;
}
int dist_index = computOrder(dists);//計算該點到各個質心的距離的最小值,獲得下標
results[dist_index].add(p);//劃分到對應的分組。
}
/*
* 將點聚類之後,重新尋找每個簇的新的中心點,根據每個點的關注屬性的平均值確立新的質心。
*/
for (int i = 0; i < k; i++) {
T player_new = findNewCenter(results[i]);
System.out.println("第"+iterCount+"次迭代,中心點是:"+player_new.toString());
T player_old = initPlayers.get(i);
if (!IsPlayerEqual(player_new, player_old)) {
centerchange = true;
initPlayers.set(i, player_new);
}
}
}
return results;
}
上面代碼是其中核心代碼,我們根據對象集合List和提前設定的k個聚集,最終完成聚類。我們測試一下,假設要測試根據NBA球員的場均得分情況,進行得分高中低的聚集,很簡單,高得分在一組,中等一組,低得分一組。
我們定義一個Player類,裡面有屬性goal,並錄入數據。並設定分組數目為k=3。
測試代碼如下:
List listPlayers = new ArrayList();
Player p1 = new Player();
p1.setName(「mrchi1」);
p1.setGoal(1);
p1.setAssists(8);
listPlayers.add(p1);
Player p2 = new Player();
p2.setName("mrchi2");
p2.setGoal(2);
listPlayers.add(p2);
Player p3 = new Player();
p3.setName("mrchi3");
p3.setGoal(3);
listPlayers.add(p3);
//其他對象定義此處略。製造幾個球員的對象即可。
Kmeans<Player> kmeans = new Kmeans<Player>(listPlayers, 3);
List<Player>[] results = kmeans.comput();
for (int i = 0; i < results.length; i++) {
System.out.println("類別" + (i + 1) + "聚集了以下球員:");
List<Player> list = results[i];
for (Player p : list) {
System.out.println(p.getName() + "--->" + p.getGoal()
}
}
演算法運行結果:
可以看出中心點經歷了四次迭代變化,最終分類結果也確實是相近得分的分到了一組。當然這種演算法有缺點,首先就是初始的k個中心點的確定非常重要,結果也有差異。可以選擇彼此距離盡可能遠的K個點,也可以先對數據用層次聚類演算法進行聚類,得到K個簇之後,從每個類簇中選擇一個點,該點可以是該類簇的中心點,或者是距離類簇中心點最近的那個點。
⑤ 聚類分析方法應用於哪些問題的研究
1.聚類分析的特點
聚類分析(cluster analysis)是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類.它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大.這種方法有三個特徵:適用於沒有先驗知識的分類.如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀.這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;可以處理多個變數決定的分類.例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術.
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考.其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本.
2.應用范圍
聚類分析在客戶細分中的應用
消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的.常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法.聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程.
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定.要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類.在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等.除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考.
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現.
聚類分析在實驗市場選擇中的應用
實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試.通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣.
實驗調查法最常用的領域有:市場飽和度測試.市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標.企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度.或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力.前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗.這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產品上市實驗.波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡.然而新產品投放市場後的失敗率卻很高,大致為66%到90%.因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的.
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗.這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同.
通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性.聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數
⑥ 最新聚類演算法的綜述哪篇論文比較好
這個一般 ,OK !!
⑦ 一文讀懂聚類演算法
一文讀懂聚類演算法
1. 聚類的基本概念
1.1 定義
聚類是數據挖掘中的概念,就是按照某個特定標准(如距離)把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。也即聚類後同一類的數據盡可能聚集到一起,不同類數據盡量分離。
1.2 聚類與分類的區別
Clustering (聚類),簡單地說就是把相似的東西分到一組,聚類的時候,我們並不關心某一類是什麼,我們需要實現的目標只是把相似的東西聚到一起。因此,一個聚類演算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練數據進行學習,這在Machine Learning中被稱作unsupervised learning (無監督學習)。
Classification (分類),對於一個classifier,通常需要你告訴它「這個東西被分為某某類」這樣一些例子,理想情況下,一個 classifier 會從它得到的訓練集中進行「學習」,從而具備對未知數據進行分類的能力,這種提供訓練數據的過程通常叫做supervised learning (監督學習)。
1.3 聚類過程
數據准備:包括特徵標准化和降維;
特徵選擇:從最初的特徵中選擇最有效的特徵,並將其存儲於向量中;
特徵提取:通過對所選擇的特徵進行轉換形成新的突出特徵;
聚類(或分組):首先選擇合適特徵類型的某種距離函數(或構造新的距離函數)進行接近程度的度量,而後執行聚類或分組;
聚類結果評估:是指對聚類結果進行評估,評估主要有3種:外部有效性評估、內部有效性評估和相關性測試評估。
1.4 衡量聚類演算法優劣的標准
處理大的數據集的能力;
處理任意形狀,包括有間隙的嵌套的數據的能力;
演算法處理的結果與數據輸入的順序是否相關,也就是說演算法是否獨立於數據輸入順序;
處理數據雜訊的能力;
是否需要預先知道聚類個數,是否需要用戶給出領域知識;
演算法處理有很多屬性數據的能力,也就是對數據維數是否敏感。
2. 聚類方法的分類
主要分為層次化聚類演算法,劃分式聚類演算法,基於密度的聚類演算法,基於網格的聚類演算法,基於模型的聚類演算法等。
2.1 層次化聚類演算法
又稱樹聚類演算法,透過一種層次架構方式,反復將數據進行分裂或聚合。典型的有BIRCH演算法,CURE演算法,CHAMELEON演算法,Sequence data rough clustering演算法,Between groups average演算法,Furthest neighbor演算法,Neares neighbor演算法等。
典型凝聚型層次聚類:
先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。
演算法流程:
將每個對象看作一類,計算兩兩之間的最小距離;
將距離最小的兩個類合並成一個新類;
重新計算新類與所有類之間的距離;
重復2、3,直到所有類最後合並成一類。
2.2 劃分式聚類演算法
預先指定聚類數目或聚類中心,反復迭代逐步降低目標函數誤差值直至收斂,得到最終結果。K-means,K-modes-Huang,K-means-CP,MDS_CLUSTER, Feature weighted fuzzy clustering,CLARANS等
經典K-means演算法流程:
隨機地選擇k個對象,每個對象初始地代表了一個簇的中心;
對剩餘的每個對象,根據其與各簇中心的距離,將它賦給最近的簇;
重新計算每個簇的平均值,更新為新的簇中心;
不斷重復2、3,直到准則函數收斂。
2.3 基於模型的聚類演算法
為每簇假定了一個模型,尋找數據對給定模型的最佳擬合,同一」類「的數據屬於同一種概率分布,即假設數據是根據潛在的概率分布生成的。主要有基於統計學模型的方法和基於神經網路模型的方法,尤其以基於概率模型的方法居多。一個基於模型的演算法可能通過構建反應數據點空間分布的密度函數來定位聚類。基於模型的聚類試圖優化給定的數據和某些數據模型之間的適應性。
SOM神經網路演算法:
該演算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特徵。
演算法流程:
網路初始化,對輸出層每個節點權重賦初值;
將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;
定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏;
提供新樣本、進行訓練;
收縮鄰域半徑、減小學習率、重復,直到小於允許值,輸出聚類結果。
2.4 基於密度聚類演算法
主要思想:
只要鄰近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類
擅於解決不規則形狀的聚類問題,廣泛應用於空間信息處理,SGC,GCHL,DBSCAN演算法、OPTICS演算法、DENCLUE演算法。
DBSCAN:
對於集中區域效果較好,為了發現任意形狀的簇,這類方法將簇看做是數據空間中被低密度區域分割開的稠密對象區域;一種基於高密度連通區域的基於密度的聚類方法,該演算法將具有足夠高密度的區域劃分為簇,並在具有雜訊的空間數據中發現任意形狀的簇。
2.5 基於網格的聚類演算法
基於網格的方法把對象空間量化為有限數目的單元,形成一個網格結構。所有的聚類操作都在這個網格結構(即量化空間)上進行。這種方法的主要優點是它的處理速度很快,其處理速度獨立於數據對象的數目,只與量化空間中每一維的單元數目有關。但這種演算法效率的提高是以聚類結果的精確性為代價的。經常與基於密度的演算法結合使用。
代表演算法有STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法等。
2.6 新發展的方法
基於約束的方法:
真實世界中的聚類問題往往是具備多種約束條件的 , 然而由於在處理過程中不能准確表達相應的約束條件、不能很好地利用約束知識進行推理以及不能有效利用動態的約束條件 , 使得這一方法無法得到廣泛的推廣和應用。這里的約束可以是對個體對象的約束 , 也可以是對聚類參數的約束 , 它們均來自相關領域的經驗知識。該方法的一個重要應用在於對存在障礙數據的二維空間數據進行聚類。 COD (Clustering with Ob2structed Distance) 就是處理這類問題的典型演算法 , 其主要思想是用兩點之間的障礙距離取代了一般的歐氏距離來計算其間的最小距離。
基於模糊的聚類方法:
基於模糊集理論的聚類方法,樣本以一定的概率屬於某個類。比較典型的有基於目標函數的模糊聚類方法、基於相似性關系和模糊關系的方法、基於模糊等價關系的傳遞閉包方法、基於模 糊圖論的最小支撐樹方法,以及基於數據集的凸分解、動態規劃和難以辨別關系等方法。
FCM模糊聚類演算法流程:
標准化數據矩陣;
建立模糊相似矩陣,初始化隸屬矩陣;
演算法開始迭代,直到目標函數收斂到極小值;
根據迭代結果,由最後的隸屬矩陣確定數據所屬的類,顯示最後的聚類結果。
基於粒度的聚類方法:
基於粒度原理,研究還不完善。
量子聚類:
受物理學中量子機理和特性啟發,可以用量子理論解決聚類記過依賴於初值和需要指定類別數的問題。一個很好的例子就是基於相關點的 Pott 自旋和統計機理提出的量子聚類模型。它把聚類問題看做一個物理系統。並且許多算例表明,對於傳統聚類演算法無能為力的幾種聚類問題,該演算法都得到了比較滿意的結果。
核聚類:
核聚類方法增加了對樣本特徵的優化過程,利用 Mercer 核 把輸入空間的樣本映射到高維特徵空間,並在特徵空間中進行聚類。核聚類方法是普適的,並在性能上優於經典的聚類演算法,它通過非線性映射能夠較好地分辨、提取並放大有用的特徵,從而實現更為准確的聚類;同時,演算法的收斂速度也較快。在經典聚類演算法失效的情況下,核聚類演算法仍能夠得到正確的聚類。代表演算法有SVDD演算法,SVC演算法。
譜聚類:
首先根據給定的樣本數據集定義一個描述成對數據點相似度的親合矩陣,並計算矩陣的特徵值和特徵向量,然後選擇合適的特徵向量聚類不同的數據點。譜聚類演算法最初用於計算機視覺、VLSI設計等領域,最近才開始用於機器學習中,並迅速成為國際上機器學習領域的研究熱點。
譜聚類演算法建立在圖論中的譜圖理論基礎上,其本質是將聚類問題轉化為圖的最優劃分問題,是一種點對聚類演算法。
聚類演算法簡要分類架構圖
常用演算法特點對比表
3. 簡單的代碼示例
4. 學習資料
聚類演算法屬於機器學習或數據挖掘領域內,范疇比較小,一般都算作機器學習的一部分或數據挖掘領域中的一類演算法,可結合機器學習進行學習
⑧ 模糊C均值聚類演算法研究
網頁優化策略的模糊C均值(FCM)聚類演算法研究
王玉龍 葉新銘 李秀華
摘 要:在對Web站點進行優化時,為了降低成本,往往需要在不改變硬體和網路配置的情況下提高網站的性能.此時,對構成網站的網頁的修改就成為提高站點性能的主要途徑.對網頁的訪問速度的測量已有很多成熟的方法,但是如何根據測試的結果指定合理的優化策略,卻鮮有論述.本文使用FCM演算法對測試結果和網站日誌進行聚類分析,從而得到一個良好的優化策略.
關鍵詞:Web;優化;模糊C均值(FCM);聚類演算法
Research on Fuzzy C-means Clustering Algorithm in Web Page Optimization Strategy
WANG Yu-Long YE Xin-Ming LI Xiu-Hua
基金項目:國家自然基金項目(60263002),內蒙古科技攻關項目(2002061002).
作者簡介:王玉龍 內蒙古大學計算機學院研究生.
作者簡介:葉新銘 內蒙古大學計算機學院教授.
作者簡介:李秀華 內蒙古大學計算機學院研究生.
作者單位:王玉龍(內蒙古大學計算機學院,呼和浩特,010021)
葉新銘(內蒙古大學計算機學院,呼和浩特,010021)
李秀華(內蒙古大學計算機學院,呼和浩特,010021)
參考文獻:
[1]An application of fuzzy clustering in group-positioning analysis [J]. Proc Natl Sci,Counc ROC(C) , 2000 ,10(2) :157~167
[2]Michalopoulos M,D ounias G D, Thomaidis N T. Decision making using fuzzy C-means and inctive machine learning for managing bank branches performance [EB/OL]. http:‖citeseer. nj. nec.com/458829. html, 2002
[3]Xie X, Beni G. A validity measure for fuzzy clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1991,13(8):814~847
[4]Pal N R, Bezedek C. On cluster validity for the fuzzy c-Means model. IEEE Trans, 1995,3: 370~379
[5]Xie X L, Beni G. A validity measure for fuzzy clustering. IEEE Trans, 1991,13(8): 841~847
[6]於劍,程乾生.模糊聚類方法中的最佳聚類數的搜索范圍[J].中國科學(E輯),2002,32(2):274~280
出版日期:2005年10月25日
⑨ 聚類分析是什麼研究手段
類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
⑩ 聚類演算法的介紹
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要演算法。聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。