k均值演算法
『壹』 k均值聚類演算法聚類個數怎麼確定
演算法:
第一步:選K個初始聚類中心,z1(1),z2(1),…,zK(1),其中括弧內的序號為尋找聚類中心的迭代運算的次序號。聚類中心的向量值可任意設定,例如可選開始的K個模式樣本的向量值作為初始聚類中心。
『貳』 K平均演算法的介紹
k平均聚類發明於1956年,是一個聚類演算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望演算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量,並且目標是使各個群組內部的均方誤差總和最小。假設有k個群組Si, i=1,2,...,k。μi是群組Si內所有元素xj的重心,或叫中心點。
『叄』 kmean演算法是干什麼的
聚類分析是一種靜態數據分析方法,常被用於機器學習,模式識別,數據挖掘等領域。通常認為,聚類是一種無監督式的機器學習方法,它的過程是這樣的:在未知樣本類別的情況下,通過計算樣本彼此間的距離(歐式距離,馬式距離,漢明距離,餘弦距離等)來估計樣本所屬類別。從結構性來劃分,聚類方法分為自上而下和自下而上兩種方法,前者的演算法是先把所有樣本視為一類,然後不斷從這個大類中分離出小類,直到不能再分為止;後者則相反,首先所有樣本自成一類,然後不斷兩兩合並,直到最終形成幾個大類。
常用的聚類方法主要有以下四種: //照搬的wiki,比較懶...
Connectivity based clustering(如hierarchical clustering 層次聚類法)
Centroid-based clustering(如kmeans)
Distribution-based clustering
Density-based clustering
Kmeans聚類是一種自下而上的聚類方法,它的優點是簡單、速度快;缺點是聚類結果與初始中心的選擇有關系,且必須提供聚類的數目。Kmeans的第二個缺點是致命的,因為在有些時候,我們不知道樣本集將要聚成多少個類別,這種時候kmeans是不適合的,推薦使用hierarchical 或meanshift來聚類。第一個缺點可以通過多次聚類取最佳結果來解決。
Kmeans的計算過程大概表示如下
隨機選擇k個聚類中心. 最終的類別個數<= k
計算每個樣本到各個中心的距離
每個樣本聚類到離它最近的中心
重新計算每個新類的中心
重復以上步驟直到滿足收斂要求。(通常就是中心點不再改變或滿足一定迭代次數).
『肆』 數據挖掘題目,K—均值演算法應用
這種問題明顯是取巧的題目,是不是老師布置的作業呀。建議你還是自己認真做做吧,如果有具體的問題我想會有很多人幫你的。但不是幫你偷懶。
幫你修改好了,從你所犯錯誤看,你的編程水平還處於初級階段。希望我花費的時間對你編程有幫助,我是一個大學老師,經常發現我的學生對改過的作業根本不看。希望你不是如此。建議你把我改過的地方,以及為什麼這樣改給我回個帖。
x1=1.2*randn(10,1)+3
y1=1.1*randn(10,1)+6
a=[x1,y1]
x2=1.2*randn(10,1)+5
y2=1.1*randn(10,1)+8
b=[x2,y2]
x3=1.2*randn(10,1)+1
y3=1.1*randn(10,1)+4
c=[x3,y3]
x=[a;b;c]
[idx,c]=kmeans(x,
3,
'dist','city',
'rep',5,
'disp','final')
plot(x(idx==1,1),x(idx==1,2),'r.','markersize',12)
hold
on
plot(x(idx==2,1),x(idx==2,2),'b.','markersize',12)
hold
on
plot(x(idx==3,1),x(idx==3,2),'g.','markersize',12)
『伍』 K均值演算法和塊匹配演算法有什麼區別
聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程,聚類就是一種發現這種內在結構的技術,聚類技術經常被稱為無監督學習。
k均值聚類是最著名的劃分聚類演算法,由於簡潔和效率使得他成為所有聚類演算法中最廣泛使用的。給定一個數據點集合和需要的聚類數目k,k由用戶指定,k均值演算法根據某個距離函數反復把數據分入k個聚類中。
『陸』 K-Means聚類演算法原理是怎麼樣的
問題:
姓名 身高 體重 眼睛
A 180 X 1.2
A X 140 X
A 180 140 X
A 168 120 1.5
姓名一樣,用java演算法,判斷出是兩個人?
『柒』 系統聚類和k均值聚類區別和聯系
摘要 你好k_means均值聚類,採用歐式距離做為相似度指標,將相似度高的數據對象劃分為一類,通過反復迭代計算新質心,並且樣本觀測所屬的類會不斷的調整,使得新質心與所有數據對象的平方誤差總和最小的一種迭代型快速聚類演算法,變數類型為連續型變數,需要主動設定分類數。
『捌』 K-means的演算法優點
K-Means聚類演算法的優點主要集中在:
1.演算法快速、簡單;
2.對大數據集有較高的效率並且是可伸縮性的;
3.時間復雜度近於線性,而且適合挖掘大規模數據集。K-Means聚類演算法的時間復雜度是O(nkt) ,其中n代表數據集中對象的數量,t代表著演算法迭代的次數,k代表著簇的數目。