kmeans算法

发布时间: 2022-01-08 17:47:36

⑴ k-means聚类算法常用的终止条件有哪些

K-means 算法属于聚类分析方法中一种基本的且应用最广泛的划分算法，它是一种已知聚类类别数的聚类算法。指定类别数为K，对样本集合进行聚类，聚类的结果由K 个聚类中心来表达，基于给定的聚类目标函数（或者说是聚类效果判别准则），算法采用迭代更新的方法，每一次迭代过程都是向目标函数值减小的方向进行，最终的聚类结果使目标函数值取得极小值，达到较优的聚类效果。使用平均误差准则函数E作为聚类结果好坏的衡量标准之一，保证了算法运行结果的可靠性和有效性。

⑵ K-means的算法优点

K-Means聚类算法的优点主要集中在:
1.算法快速、简单;
2.对大数据集有较高的效率并且是可伸缩性的;
3.时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

⑶ K-Means聚类算法原理是怎么样的

问题：
姓名身高体重眼睛
A 180 X 1.2
A X 140 X

A 180 140 X

A 168 120 1.5
姓名一样，用java算法，判断出是两个人？

⑷ k_means算法

你的文件名叫什么

⑸ k-means算法数据需标准化吗

理论上是不需要的，因为标准化的线性变换不会影响距离的相对大小，但是实践时，数据标准化与否结果是不同的，可能与算法具体实现有关。

⑹ k-means聚类算法的java代码实现文本聚类

K-MEANS算法:
k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

具体如下：
输入：k, data[n];
（1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1];
（2）对于data[0]….data[n], 分别与c[0]…c[n-1]比较，假定与c[i]差值最少，就标记为i;
（3）对于所有标记为i点，重新计算c[i]=/标记为i的个数；
（4）重复(2)(3),直到所有c[i]值的变化小于给定阈值。

算法实现起来应该很容易，就不帮你编写代码了。

⑺ kmeans算法用Python怎么实现

函数

loadDataSet(fileName)
从文件中读取数据集
distEclud(vecA, vecB)
计算距离，这里用的是欧氏距离，当然其他合理的距离都是可以的
randCent(dataSet, k)
随机生成初始的质心，这里是虽具选取数据范围内的点
kMeans(dataSet, k, distMeas=distEclud, createCent=randCent)
kmeans算法，输入数据和k值。后面两个事可选的距离计算方式和初始质心的选择方式
show(dataSet, k, centroids, clusterAssment)
可视化结果

1 #coding=utf-8 2 from numpy import * 3 4 def loadDataSet(fileName): 5 dataMat = [] 6 fr = open(fileName) 7 for line in fr.readlines(): 8 curLine = line.strip().split(' ') 9 fltLine = map(float, curLine)10 dataMat.append(fltLine)11 return dataMat12 13 #计算两个向量的距离，用的是欧几里得距离14 def distEclud(vecA, vecB):15 return sqrt(sum(power(vecA - vecB, 2)))16 17 #随机生成初始的质心（ng的课说的初始方式是随机选K个点）
18 def randCent(dataSet, k):19 n = shape(dataSet)[1]20 centroids = mat(zeros((k,n)))21 for j in range(n):22 minJ = min(dataSet[:,j])23 rangeJ = float(max(array(dataSet)[:,j]) - minJ)24 centroids[:,j] = minJ + rangeJ * random.rand(k,1)25 return centroids26 27 def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):28 m = shape(dataSet)[0]29 clusterAssment = mat(zeros((m,2)))#create mat to assign data points
30 #to a centroid, also holds SE of each point31 centroids = createCent(dataSet, k)32 clusterChanged = True33 while clusterChanged:34 clusterChanged = False35 for i in range(m):#for each data point assign it to the closest centroid36 minDist = inf37 minIndex = -138 for j in range(k):39 distJI = distMeas(centroids[j,:],dataSet[i,:])40 if distJI < minDist:41 minDist = distJI; minIndex = j42 if clusterAssment[i,0] != minIndex:
43 clusterChanged = True44 clusterAssment[i,:] = minIndex,minDist**245 print centroids46 for cent in range(k):#recalculate centroids47 ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster48 centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean
49 return centroids, clusterAssment50 51 def show(dataSet, k, centroids, clusterAssment):52 from matplotlib import pyplot as plt
53 numSamples, dim = dataSet.shape
54 mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
55 for i in xrange(numSamples):
56 markIndex = int(clusterAssment[i, 0])
57 plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])
58 mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
59 for i in range(k):
60 plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 12)
61 plt.show()62 63 def main():64 dataMat = mat(loadDataSet('testSet.txt'))65 myCentroids, clustAssing= kMeans(dataMat,4)66 print myCentroids67 show(dataMat, 4, myCentroids, clustAssing)
68 69 70 if __name__ == '__main__':71 main()

这里是聚类结果，还是很不错的啦

⑻ kmeans算法名词解释

Kmeans是聚类算法的一种，在工业界应用广泛，简单效果好，ps：企业拥有大数据量可以弥补Kmeans算法过于简单的性能劣势。

⑼ k means算法如何具体实现呢

1.基本Kmeans算法[1]

[cpp] view plain
选择K个点作为初始质心
repeat
将每个点指派到最近的质心，形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数

时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为记录数，n为维数

空间复杂度：O((m+K)n)，其中，K为簇的数目，m为记录数，n为维数

阅读全文

热点内容

qtcreator的编译器发布：2024-12-27 14:51:45 浏览：524

m6手动中配有哪些配置发布：2024-12-27 14:38:51 浏览：446

在别的电脑怎么知道服务器ip 发布：2024-12-27 14:37:21 浏览：144

为什么是微信支付密码是什么发布：2024-12-27 14:22:26 浏览：189

全民k歌在哪个文件夹发布：2024-12-27 14:18:23 浏览：396

androidjava教程发布：2024-12-27 14:17:34 浏览：715

vue源码逐行解析发布：2024-12-27 14:16:19 浏览：675

无线打印服务器搭建发布：2024-12-27 13:50:50 浏览：290

arm的存储器发布：2024-12-27 13:47:24 浏览：982

vivox20忘记密码怎么解锁发布：2024-12-27 13:46:00 浏览：817

kmeans算法

与kmeans算法相关的资讯