分类与聚类算法

发布时间: 2023-08-10 04:19:35

‘壹’ 数据挖掘干货总结（四）--聚类算法

本文共计2680字，预计阅读时长七分钟

聚类算法

一、本质

将数据划分到不同的类里，使相似的数据在同一类里，不相似的数据在不同类里

二、 分类算法用来解决什么问题

文本聚类、图像聚类和商品聚类，便于发现规律，以解决数据稀疏问题

三、 聚类算法基础知识

1. 层次聚类 vs 非层次聚类

– 不同类之间有无包含关系

2. 硬聚类 vs 软聚类

– 硬聚类：每个对象只属于一个类

– 软聚类：每个对象以某个概率属于每个类

3. 用向量表示对象

– 每个对象用一个向量表示，可以视为高维空间的一个点

– 所有对象形成数据空间（矩阵）

– 相似度计算：Cosine、点积、质心距离

4. 用矩阵列出对象之间的距离、相似度

5. 用字典保存上述矩阵（节省空间）

D={(1,1):0,(1,2):2,(1,3):6...(5,5):0}

6. 评价方法

– 内部评价法（Internal Evalution）：

• 没有外部标准，非监督式

• 同类是否相似，跨类是否相异

DB值越小聚类效果越好，反之，越不好

– 外部评价法（External Evalution）：

• 准确度（accuracy）: (C11+C22) / (C11 + C12 + C21 + C22)

• 精度（Precision）: C11 / (C11 + C21 )

• 召回（Recall）: C11 / (C11 + C12 )

• F值（F-measure）：

β表示对精度P的重视程度，越大越重视，默认设置为1，即变成了F值，F较高时则能说明聚类效果较好。

四、 有哪些聚类算法

主要分为 层次化聚类算法 ， 划分式聚类算法 ， 基于密度的聚类算法 ， 基于网格的聚类算法 ， 基于模型的聚类算法等 。

4.1 层次化聚类算法

又称树聚类算法，透过一种层次架构方式，反复将数据进行分裂或聚合。典型的有BIRCH算法，CURE算法，CHAMELEON算法，Sequence data rough clustering算法,Between groups average算法,Furthest neighbor算法,Neares neighbor算法等。

凝聚型层次聚类 ：

先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。

算法流程：

1. 将每个对象看作一类，计算两两之间的最小距离；

2. 将距离最小的两个类合并成一个新类；

3. 重新计算新类与所有类之间的距离；

4. 重复2、3，直到所有类最后合并成一类。

特点：

1. 算法简单

2. 层次用于概念聚类（生成概念、文档层次树）

3. 聚类对象的两种表示法都适用

4. 处理大小不同的簇

5. 簇选取步骤在树状图生成之后

4.2 划分式聚类算法

预先指定聚类数目或聚类中心，反复迭代逐步降低目标函数误差值直至收敛，得到最终结果。K-means,K-modes-Huang,K-means-CP,MDS_CLUSTER, Feature weighted fuzzy clustering，CLARANS等

经典K-means：

算法流程：

1. 随机地选择k个对象，每个对象初始地代表了一个簇的中心；

2. 对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；

3. 重新计算每个簇的平均值，更新为新的簇中心；

4. 不断重复2、3，直到准则函数收敛。

特点：

1.K的选择

2.中心点的选择

– 随机

– 多轮随机：选择最小的WCSS

3.优点

– 算法简单、有效

– 时间复杂度：O(nkt)

4.缺点

– 不适于处理球面数据

– 密度、大小不同的聚类，受K的限制，难于发现自然的聚类

4.3 基于模型的聚类算法

为每簇假定了一个模型，寻找数据对给定模型的最佳拟合，同一”类“的数据属于同一种概率分布，即假设数据是根据潜在的概率分布生成的。主要有基于统计学模型的方法和基于神经网络模型的方法，尤其以基于概率模型的方法居多。一个基于模型的算法可能通过构建反应数据点空间分布的密度函数来定位聚类。基于模型的聚类试图优化给定的数据和某些数据模型之间的适应性。

SOM 神经网络算法 ：

该算法假设在输入对象中存在一些拓扑结构或顺序，可以实现从输入空间(n维)到输出平面(2维)的降维映射，其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。

SOM网络包含输入层和输出层。输入层对应一个高维的输入向量，输出层由一系列组织在2维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。学习过程中，找到与之距离最短的输出层单元，即获胜单元，对其更新。同时，将邻近区域的权值更新，使输出节点保持输入向量的拓扑特征。

算法流程：

1. 网络初始化，对输出层每个节点权重赋初值；

2. 将输入样本中随机选取输入向量，找到与输入向量距离最小的权重向量；

3. 定义获胜单元，在获胜单元的邻近区域调整权重使其向输入向量靠拢；

4. 提供新样本、进行训练；

5. 收缩邻域半径、减小学习率、重复，直到小于允许值，输出聚类结果。

4.4 基于密度聚类算法

只要邻近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类，擅于解决不规则形状的聚类问题，广泛应用于空间信息处理,SGC,GCHL，DBSCAN算法、OPTICS算法、DENCLUE算法。

DBSCAN：

对于集中区域效果较好，为了发现任意形状的簇，这类方法将簇看做是数据空间中被低密度区域分割开的稠密对象区域；一种基于高密度连通区域的基于密度的聚类方法，该算法将具有足够高密度的区域划分为簇，并在具有噪声的空间数据中发现任意形状的簇。

4.5 基于网格的聚类算法

基于网格的方法把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构（即量化空间）上进行。这种方法的主要优点是它的处理速度很快，其处理速度独立于数据对象的数目，只与量化空间中每一维的单元数目有关。但这种算法效率的提高是以聚类结果的精确性为代价的。经常与基于密度的算法结合使用。代表算法有STING算法、CLIQUE算法、WAVE-CLUSTER算法等。

‘贰’ 聚类算法的算法分类

很难对聚类方法提出一个简洁的分类，因为这些类别可能重叠，从而使得一种方法具有几类的特征，尽管如此，对于各种不同的聚类方法提供一个相对有组织的描述依然是有用的，为聚类分析计算方法主要有如下几种：划分法(partitioning methods)，给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：
（1）每一个分组至少包含一个数据纪录；
（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；
对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。
大部分划分方法是基于距离的。给定要构建的分区数k，划分方法首先创建一个初始化划分。然后，它采用一种迭代的重定位技术，通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是：同一个簇中的对象尽可能相互接近或相关，而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类，而不是搜索整个数据空间。当存在很多属性并且数据稀疏时，这是有用的。为了达到全局最优，基于划分的聚类可能需要穷举所有可能的划分，计算量极大。实际上，大多数应用都采用了流行的启发式方法，如k-均值和k-中心算法，渐近的提高聚类质量，逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类，需要进一步扩展基于划分的方法。
使用这个基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法；层次法(hierarchical methods)，这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。
例如，在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。
层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于，一旦一个步骤（合并或分裂）完成，它就不能被撤销。这个严格规定是有用的，因为不用担心不同选择的组合数目，它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的方法。
代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等；基于密度的方法(density-based methods)，基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
这个方法的指导思想就是，只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。
代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等；基于网格的方法(grid-based methods)，这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。
代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；基于模型的方法(model-based methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。
通常有两种尝试方向：统计的方案和神经网络的方案。

‘叁’ 聚类算法和分类算法有什么区别么

聚类是未知结果会有多少类的，即可能聚成10个类也可能聚成100个类，只是根据某些相似性条件把数据聚合在一起，当然也有让用户自定义类数目的聚类算法，但这个数目也不好定的。分类是已知一共有多少类，并明确知道该类的特点，然后把未知的按一定规则分到某一个类中
聚类聚类的数据集要比较多，这样才有东西聚成一堆一堆的。分类可以多可以少，当然数据量大才能很好地说明分类算法的优异。但实际上分类算法在确定某些规则后，你可以只有一个未知的数据也可以把它分到某一个类别当中，但聚类如果只有一个未知的数据怎么聚啊。

‘肆’ 机器学习中分类与聚类的本质区别

机器学习中分类与聚类的本质区别
机器学习中有两类的大问题，一个是分类，一个是聚类。
在我们的生活中，我们常常没有过多的去区分这两个概念，觉得聚类就是分类，分类也差不多就是聚类，下面，我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。
分类
分类有如下几种说法，但表达的意思是相同的。
分类（classification）:分类任务就是通过学习得到一个目标函数f，把每个属性集x映射到一个预先定义的类标号y中。
分类是根据一些给定的已知类别标号的样本，训练某种学习机器（即得到某种目标函数），使它能够对未知类别的样本进行分类。这属于supervised learning（监督学习）。
分类：通过学习来得到样本属性与类标号之间的关系。
用自己的话来说，就是我们根据已知的一些样本（包括属性与类标号）来得到分类模型（即得到样本属性与类标号之间的函数），然后通过此目标函数来对只包含属性的样本数据进行分类。
分类算法的局限
分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。
聚类
聚类的相关的一些概念如下
而聚类指事先并不知道任何样本的类别标号，希望通过某种算法来把一组未知类别的样本划分成若干类别，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，这在机器学习中被称作 unsupervised learning （无监督学习）
通常，人们根据样本间的某种距离或者相似性来定义聚类，即把相似的（或距离近的）样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。
聚类的目标：组内的对象相互之间时相似的（相关的），而不同组中的对象是不同的（不相关的）。组内的相似性越大，组间差别越大，聚类就越好。
分类与聚类的比较
聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
在分类中，对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的类或者说聚类，并且使得在这种分类情况下，以某种度量（例如：距离）为标准的相似性，在同一聚类之间最小化，而在不同聚类之间最大化。
与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据样本有类别标记。
要说明内容
因为最近在研究者两种算法，也就刚好用来说一下分类和聚类不同的算法。
SVM与二分K均值算法的区别之一：支持向量机（SVM）是一种分类算法，二分k均值算法属于一种聚类算法。
在《数据挖掘导论（完整版）》这本书第306页中有这样一句话：聚类可以看做一种分类，它用类标号创建对象的标记，然而只能从数据导出这些标号。相比之下，前面所说的分类是监督分类（supervisedclassification）:即使用有类标号已知的对象开发的模型，对新的、无标记的对象赋予类标号。为此，有时称聚类分析为非监督分类（unsupervised classification）。在数据挖掘中，不附加任何条件使用术语分类时，通常是指监督分类。
因此，SVM与二分K均值算法的区别之一：支持向量机（SVM）是一种监督分类算法，二分k均值算法属于一种非监督分类算法。

‘伍’ 聚类算法有哪些分类

聚类算法的分类有：

1、划分法

划分法(partitioning methods)，给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K小于N。而且这K个分组满足下列条件：

（1）每一个分组至少包含一个数据纪录；

（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；

2、层次法

层次法(hierarchical methods)，这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。

例如，在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。

3、密度算法

基于密度的方法(density-based methods)，基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

4、图论聚类法

图论聚类方法解决的第一步是建立与问题相适应的图，图的节点对应于被分析数据的最小单元，图的边（或弧）对应于最小处理单元数据之间的相似性度量。因此，每一个最小处理单元数据之间都会有一个度量表达，这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源，因而其主要优点是易于处理局部数据的特性。

5、网格算法

基于网格的方法(grid-based methods)，这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。

代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；

6、模型算法

基于模型的方法(model-based methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向：统计的方案和神经网络的方案。

(5)分类与聚类算法扩展阅读：

聚类算法的要求：

1、可伸缩性

许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好；但是，一个大规模数据库可能包含几百万个对象，在这样的大数据集合样本上进行聚类可能会导致有偏的结果。

我们需要具有高度可伸缩性的聚类算法。

2、不同属性

许多算法被设计用来聚类数值类型的数据。但是，应用可能要求聚类其他类型的数据，如二元类型(binary)，分类/标称类型（categorical/nominal），序数型（ordinal）数据，或者这些数据类型的混合。

3、任意形状

许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是，一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。

4、领域最小化

许多聚类算法在聚类分析中要求用户输入一定的参数，例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定，特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担，也使得聚类的质量难以控制。

5、处理“噪声”

绝大多数现实中的数据库都包含了孤立点，缺失，或者错误的数据。一些聚类算法对于这样的数据敏感，可能导致低质量的聚类结果。

6、记录顺序

一些聚类算法对于输入数据的顺序是敏感的。例如，同一个数据集合，当以不同的顺序交给同一个算法时，可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。

‘陆’ 技术 | 文本聚类与分类

按照处理的对象和处理的方法不同，可将常见文本分类/聚类任务分为以下几种：

① 文档聚类： 把一组未知类别的文档划分为若干类别，例如将介绍奥运会的新闻都归到某一类；

② 文档分类： 给定一个文档，将其划分到预定义好的某一个类别中，例如将所有介绍奥运会的新闻都标记为“体育”；

③ 词汇聚类： 把一组未知类别的词汇划分为若干类别，例如将各种运动的项目名称（词汇）都归为一类；

④ 词汇分类： 给定一个词汇，将其划分到预定义好的某一个类别中，例如将篮球、足球等都比较为球类，将打猎、射箭等都标记为射击。

要实现上述目的，通常有以下几个核心问题要解决：

1. 特征选择

1.1 用什么作为特征项

用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须满足：能够标识文本内容、能够将目标文本与其他文本相区分、个数不能太多、特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。

相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。

1.2 选取哪些作为特征项

如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征提取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。

特征选取的方式有2种：用映射或变换的方法把原始特征变换为较少的新特征（将原始特征用新特征表示）；从原始特征中挑选出一些最具代表性的特征（只保留部分原始特征，不产生新特征），即根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词，常见的特征评估函数包括TF-IDF、信息增益、互信息等。

2. 文本表示

2.1 如何表示文档

为了让计算机能够“计算”文本，就需要我们将文本数据转换成计算机可以处理的结构化数据。常见的文本表示模型有布尔模型、向量空间模型、统计主题模型等。其中，向量空间模型概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂，目前应用最广。

2.2 如何确立权重

一篇文档有很多词，有些词表达的语义很重要，有些相对次要，那么如何确定哪些重要？哪些次要呢？因此，需要进一步对每个词的重要性进行度量。常见的确立词汇权重的算法有TF-IDF、词频法等。

3. 相似性计算

要实现文本的分类和聚类，需要设计一种算法计算出文档与文档、词汇与词汇之间的相似性。

3.1 文档相似性

设定我们要比较X和Y间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3, … xn），Y=（y1, y2, y3, … yn）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。

a. 距离度量

距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。常见的距离有欧几里得距离(Euclidean Distance)、明可夫斯基距离(Minkowski Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(Chebyshev Distance)、马哈拉诺比斯距离(Mahalanobis Distance)。

b. 相似性度量

相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。常见的相似性度量有向量空间余弦相似度(Cosine Similarity)、皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(Jaccard Coefficient)、调整余弦相似度(Adjusted Cosine Similarity)。

欧氏距离是最常见的距离度量，而余弦相似度则是最常见的相似度度量，很多的距离度量和相似度度量都是基于这两者的变形和衍生，所以下面重点比较下两者在衡量个体差异时实现方式和应用环境上的区别。下面借助三维坐标系来看下欧氏距离和余弦相似度的区别：

从图上可以看出距离度量衡量的是空间各点间的绝对距离，跟各个点所在的位置坐标（即个体特征维度的数值）直接相关；而余弦相似度衡量的是空间向量的夹角，更加的是体现在方向上的差异，而不是位置。如果保持A点的位置不变，B点朝原方向远离坐标轴原点，那么这个时候余弦相似度cosθ是保持不变的，因为夹角不变，而A、B两点的距离显然在发生改变，这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征，分别适用于不同的数据分析模型：欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异；而余弦相似度更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦相似度对绝对数值不敏感）。

3.2 词汇相似性

目前我接触的常见词汇相似性的方法有：

a. 传统图情领域：基于共现频次这一基本统计量衍生出来的，如association strength、inclusion index、Jaccard’s coefficient、Salton’s cosine（Ochiia系数）等；

b. 计算机领域：一是基于语义词典的方法，即依据词典分类体系挖掘所包含的词义知识，常用的词典包括Wordnet、Hownet等；二是基于语料库的方法，这里的语料库较为多元，例如网络预料、唐诗宋词预料等；；三是进行词向量化，如Word2vec。

4. 文本分类/聚类算法

有了文本表示方法，又有了计算相似性的公式，下一步就可以在此基础上讨论文本分类/聚类的算法了。

4.1 文本分类

医生对病人进行诊断就是一个典型的分类过程，任何一个医生都无法直接看到病人的病情，只能观察病人表现出的症状和各种化验检测数据来推断病情，这时医生就好比一个分类器，而这个医生诊断的准确率，与他当初受到的教育方式（构造方法）、病人的症状是否突出（待分类数据的特性）以及医生的经验多少（训练样本数量）都有密切关系。

分类器是对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。举个例子：假如你想区分小明是好学生还是坏学生，那么区分“好学生”和“坏学生”就是一个分类任务。

4.1.1 K最邻近

“别和其他坏学生在一起，否则你也会和他们一样。” —— 家长

主要思想是通过离待预测样本最近的K个样本的类别来判断当前样本的类别。从K最近邻算法的角度来看，就是让目标样本与其他正样本距离更近、与其他负样本距离更远，从而使得其近邻中的正样本比例更高，更大概率被判断成正样本。

4.1.2 朴素贝叶斯

“根据以往抓获的情况来看，十个坏学生有九个爱打架。” —— 教导主任

“十个坏学生有九个爱打架”就意味着“坏学生”打架的概率P(打架|坏学生)=0.9，假设根据训导处历史记录坏学生占学生总数P(坏学生)=0.1、打架发生的概率是P(打架)=0.09，那么这时如果发生打架事件，就可以通过贝叶斯公式判断出当事学生是“坏学生”的概率P(坏学生|打架)=P(打架|坏学生)×P(坏学生)÷P(打架)=1.0，即该学生100%是“坏学生”。

4.1.3 决策树

“先看抽不抽烟，再看染不染头发，最后看讲不讲脏话。” ——社区大妈

假设“抽烟”、“染发”和“讲脏话”是社区大妈认为的区分“好坏”学生的三项关键特征，那么这样一个有先后次序的判断逻辑就构成一个决策树模型。在决策树中，最能区分类别的特征将作为最先判断的条件，然后依次向下判断各个次优特征。决策树的核心就在于如何选取每个节点的最优判断条件，也即特征选择的过程。

而在每一个判断节点，决策树都会遵循一套IF-THEN的规则：

IF “抽烟” THEN -> “坏学生” ELSE IF “染发” THEN -> “坏学生” ELSE IF “讲脏话” THEN -> “坏学生” ELSE -> “好学生”

4.1.4 逻辑回归

“上课讲话扣1分，不交作业扣2分，比赛得奖加5分。” ——纪律委员

我们称逻辑回归为一种线性分类器，其特征就在于自变量x和因变量y之间存在类似y=ax+b的一阶的、线性的关系。假设“上课讲话”、“不交作业”和“比赛得奖”的次数分别表示为x1、x2、和x3，且每个学生的基础分为0，那么最终得分y=-1 x1-2 x2+5*x3+0。其中-1、-2和5分别就对应于每种行为在“表现好”这一类别下的权重。

对于最终得分y，逻辑回归还通过Sigmoid函数将其变换到0-1之间，其含义可以认为是当前样本属于正样本的概率，即得分y越高，属于“表现好”的概率就越大。也就是说，假如纪律委员记录了某位同学分别“上课讲话”、“不交作业”和“比赛得奖”各一次，那么最终得分y=-2-1+5=2，而对2进行Sigmoid变换后约等于0.88，即可知该同学有88%的概率为“好学生”。

4.1.5 支持向量机

“我想个办法把表现差的学生都调到最后一排。” ——班主任

支持向量机致力于在正负样本的边界上找到一条分割界线（超平面），使得它能完全区分两类样本的同时，保证划分出的间隔尽量的大。如果一条分割界线无法完全区分（线性不可分），要么加上松弛变量进行适当的容忍，要么通过核函数对样本进行空间上的映射后再进行划分。对于班主任来讲，调换学生们的座位就相当于使用了核函数，让原本散落在教室里的“好”、“坏”学生从线性不可分变得线性可分了。

4.2 文本聚类

4.2.1 基于分层的聚类

hierarchical methods： 对数据集进行逐层分解，直到满足某种条件为止。可分为“自底向上”和“自顶向下”两种。例如“自底向上”指初始时每个数据点组成一个单独的组，在接下来的迭代中，按一定的距离度量将相互邻近的组合并成一个组，直至所有的记录组成一个分组或者满足某个条件为止。代表算法有：BIRCH，CURE，CHAMELEON等。自底向上的凝聚层次聚类如下图所示。

4.2.2 基于划分的聚类

partitioning methods： 给定包含N个点的数据集，划分法将构造K个分组，每个分组代表一个聚类，这里每个分组至少包含一个数据点，每个数据点属于且仅属于一个分组。对于给定的K值，算法先给出一个初始的分组方法，然后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案较前一次好，这里好的标准在于同一组中的点越近越好，不同组中的点越远越好。代表算法有：K-means，K-medoids，CLARANS。K-means聚类过程图解如下：

4.2.3 基于密度的聚类

density-based methods： 基于密度的方法的特点是不依赖于距离，而是依赖于密度，从而克服基于距离的算法只能发现“球形”聚簇的缺点。其核心思想在于只要一个区域中点的密度大于某个阈值，就把它加到与之相近的聚类中去。代表算法有：DBSCAN，OPTICS，DENCLUE，WaveCluster。DBSCAN的聚簇生成过程的简单理解如下图。

4.2.3 基于网格的聚类

gird-based methods： 这种方法通常将数据空间划分成有限个单元的网格结构，所有的处理都是以单个的单元为对象。这样做起来处理速度很快，因为这与数据点的个数无关，而只与单元个数有关。代表算法有：STING，CLIQUE，WaveCluster。基于Clique的聚类过程可直观如下图进行理解。

4.2.4 基于模型的聚类

model-based methods： 基于模型的方法给每一个聚类假定一个模型，然后去寻找能很好的拟合模型的数据集。模型可能是数据点在空间中的密度分布函数或者其它。这样的方法通常包含的潜在假设是：数据集是由一系列的潜在概率分布生成的。通常有两种尝试思路：统计学方法和神经网络方法。其中，统计学方法有COBWEB算法、GMM(Gaussian Mixture Model)，神经网络算法有SOM(Self Organized Maps)算法。下图是GMM过程的一个简单直观地理解。

4.2.5 基于图论的聚类

聚类问题的研究不仅仅局限于上述的硬聚类，即每一个数据只能被归为一类，模糊聚类也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度，而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出，如着名的FCM算法等。

‘柒’ 数据分类和聚类有什么区别

主要区别是，性质不同、目的不同、应用不同，具体如下：

一、性质不同

1、数据分类

数据分类就是把具有某种共同属性或特征的数据归并在一起，通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率，必须遵循约定的分类原则和方法，按照信息的内涵、性质及管理的要求，将系统内所有信息按一定的结构体系分为不同的集合，从而使得每个信息在相应的分类体系中都有一个对应位置。

2、数据聚类

数据聚类是指根据数据的内在性质将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大。

二、目的不同

1、数据分类

数据分类的目的是根据新数据对象的属性，将其分配到一个正确的类别中。

2、数据聚类

聚类分析的目的是分析数据是否属于各个独立的分组，使一组中的成员彼此相似，而与其他组中的成员不同。

三、应用不同

1、数据分类

应用于统计学、计算机控制。

2、数据聚类

广泛应用于机器学习，数据挖掘，模式识别，图像分析以及生物信息等。

以上内容参考网络-数据分类、网络-数据聚类

‘捌’ 分类和聚类的区别及各自的常见算法

1、分类和聚类的区别：
Classification (分类)，对于一个classifier，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做supervised learning (监督学习)，
Clustering (聚类)，简单地说就是把相似的东西分到一组，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在Machine Learning中被称作unsupervised learning (无监督学习).
2、常见的分类与聚类算法
所谓分类，简单来说，就是根据文本的特征或属性，划分到已有的类别中。如在自然语言处理NLP中，我们经常提到的文本分类便就是一个分类问题，一般的模式分类方法都可用于文本分类研究。常用的分类算法包括：决策树分类法，朴素贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器，神经网络法，k-最近邻法(k-nearestneighbor，kNN)，模糊分类法等等。
分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。
而K均值(K-mensclustering)聚类则是最典型的聚类算法(当然，除此之外，还有很多诸如属于划分法K中心点（K-MEDOIDS）算法、CLARANS算法；属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等；基于密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；基于网格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法；基于模型的方法)。

阅读全文

热点内容

php获取浏览器发布：2025-03-11 09:03:31 浏览：876

安卓常驻后台需要什么权限发布：2025-03-11 08:58:26 浏览：180

绿源电动车威牛是什么配置发布：2025-03-11 08:47:34 浏览：9

wps加密文件密码忘记发布：2025-03-11 08:36:49 浏览：46

可编程渲染管线发布：2025-03-11 08:35:23 浏览：454

一般人手机设置密码会是什么发布：2025-03-11 08:27:19 浏览：415

缓存电视剧软件发布：2025-03-11 08:26:26 浏览：134

安卓怎么下载ios14 发布：2025-03-11 08:25:50 浏览：566

软件调试源码发布：2025-03-11 08:24:59 浏览：488

剪辑视频怎么配置解说发布：2025-03-11 08:24:23 浏览：264

分类与聚类算法

与分类与聚类算法相关的资讯