数据挖掘干货总结（四）--聚类算法

作者&投稿：魏振（若有异议请与网页底部的电邮联系）

本文共计2680字，预计阅读时长七分钟

聚类算法

一、本质

将数据划分到不同的类里，使相似的数据在同一类里，不相似的数据在不同类里

二、 分类算法用来解决什么问题

文本聚类、图像聚类和商品聚类，便于发现规律，以解决数据稀疏问题

三、 聚类算法基础知识

1. 层次聚类 vs 非层次聚类

– 不同类之间有无包含关系

2. 硬聚类 vs 软聚类

– 硬聚类：每个对象只属于一个类

– 软聚类：每个对象以某个概率属于每个类

3. 用向量表示对象

– 每个对象用一个向量表示，可以视为高维空间的一个点

– 所有对象形成数据空间（矩阵）

– 相似度计算：Cosine、点积、质心距离

4. 用矩阵列出对象之间的距离、相似度

5. 用字典保存上述矩阵（节省空间）

D={(1,1):0,(1,2):2,(1,3):6...(5,5):0}

6. 评价方法

– 内部评价法（Internal Evalution）：

• 没有外部标准，非监督式

• 同类是否相似，跨类是否相异

DB值越小聚类效果越好，反之，越不好

– 外部评价法（External Evalution）：

• 准确度（accuracy）: (C11+C22) / (C11 + C12 + C21 + C22)

• 精度（Precision）: C11 / (C11 + C21 )

• 召回（Recall）: C11 / (C11 + C12 )

• F值（F-measure）：

β表示对精度P的重视程度，越大越重视，默认设置为1，即变成了F值，F较高时则能说明聚类效果较好。

四、 有哪些聚类算法

主要分为 层次化聚类算法 ， 划分式聚类算法 ， 基于密度的聚类算法 ， 基于网格的聚类算法 ， 基于模型的聚类算法等 。

4.1 层次化聚类算法

又称树聚类算法，透过一种层次架构方式，反复将数据进行分裂或聚合。典型的有BIRCH算法，CURE算法，CHAMELEON算法，Sequence data rough clustering算法,Between groups average算法,Furthest neighbor算法,Neares neighbor算法等。

凝聚型层次聚类 ：

先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。

算法流程：

1. 将每个对象看作一类，计算两两之间的最小距离；

2. 将距离最小的两个类合并成一个新类；

3. 重新计算新类与所有类之间的距离；

4. 重复2、3，直到所有类最后合并成一类。

特点：

1. 算法简单

2. 层次用于概念聚类（生成概念、文档层次树）

3. 聚类对象的两种表示法都适用

4. 处理大小不同的簇

5. 簇选取步骤在树状图生成之后

4.2 划分式聚类算法

预先指定聚类数目或聚类中心，反复迭代逐步降低目标函数误差值直至收敛，得到最终结果。K-means,K-modes-Huang,K-means-CP,MDS_CLUSTER, Feature weighted fuzzy clustering，CLARANS等

经典K-means：

算法流程：

1. 随机地选择k个对象，每个对象初始地代表了一个簇的中心；

2. 对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；

3. 重新计算每个簇的平均值，更新为新的簇中心；

4. 不断重复2、3，直到准则函数收敛。

特点：

1.K的选择

2.中心点的选择

– 随机

– 多轮随机：选择最小的WCSS

3.优点

– 算法简单、有效

– 时间复杂度：O(nkt)

4.缺点

– 不适于处理球面数据

– 密度、大小不同的聚类，受K的限制，难于发现自然的聚类

4.3 基于模型的聚类算法

为每簇假定了一个模型，寻找数据对给定模型的最佳拟合，同一”类“的数据属于同一种概率分布，即假设数据是根据潜在的概率分布生成的。主要有基于统计学模型的方法和基于神经网络模型的方法，尤其以基于概率模型的方法居多。一个基于模型的算法可能通过构建反应数据点空间分布的密度函数来定位聚类。基于模型的聚类试图优化给定的数据和某些数据模型之间的适应性。

SOM 神经网络算法 ：

该算法假设在输入对象中存在一些拓扑结构或顺序，可以实现从输入空间(n维)到输出平面(2维)的降维映射，其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。

SOM网络包含输入层和输出层。输入层对应一个高维的输入向量，输出层由一系列组织在2维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。学习过程中，找到与之距离最短的输出层单元，即获胜单元，对其更新。同时，将邻近区域的权值更新，使输出节点保持输入向量的拓扑特征。

算法流程：

1. 网络初始化，对输出层每个节点权重赋初值；

2. 将输入样本中随机选取输入向量，找到与输入向量距离最小的权重向量；

3. 定义获胜单元，在获胜单元的邻近区域调整权重使其向输入向量靠拢；

4. 提供新样本、进行训练；

5. 收缩邻域半径、减小学习率、重复，直到小于允许值，输出聚类结果。

4.4 基于密度聚类算法

只要邻近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类，擅于解决不规则形状的聚类问题，广泛应用于空间信息处理,SGC,GCHL，DBSCAN算法、OPTICS算法、DENCLUE算法。

DBSCAN：

对于集中区域效果较好，为了发现任意形状的簇，这类方法将簇看做是数据空间中被低密度区域分割开的稠密对象区域；一种基于高密度连通区域的基于密度的聚类方法，该算法将具有足够高密度的区域划分为簇，并在具有噪声的空间数据中发现任意形状的簇。

4.5 基于网格的聚类算法

基于网格的方法把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构（即量化空间）上进行。这种方法的主要优点是它的处理速度很快，其处理速度独立于数据对象的数目，只与量化空间中每一维的单元数目有关。但这种算法效率的提高是以聚类结果的精确性为代价的。经常与基于密度的算法结合使用。代表算法有STING算法、CLIQUE算法、WAVE-CLUSTER算法等。

数据挖掘干货总结(四)--聚类算法
4.1 层次化聚类算法又称树聚类算法，透过一种层次架构方式，反复将数据进行分裂或聚合。典型的有BIRCH算法，CURE算法，CHAMELEON算法，Sequence data rough clustering算法,Between groups average算法,Furthest neighbor算法,Neares neighbor算法等。凝聚型层次聚类：先将每个对象作为一个簇，然后合并这些...

数据挖掘与预测分析术语总结
大数据（Big Data）: 大数据既是一个被滥用的流行语，也是一个当今社会的真实趋势。此术语指代总量与日俱增的数据，这些数据每天都在被捕获、处理、汇集、储存、分析。维基百科是这样描述“大数据”的：“数据集的总和如此庞大复杂，以至于现有的数据库管理工具难以处理（…）”。商业智能（Business Intellig...

干货的工作总结怎么写
笔者根据经验和自己的体会,归纳了总结工作时常用的八种角度,从中探索写好工作总结的方法,与大家探讨。 1根据工作职能进行总结这是一种最主要的总结角度,常用于年度工作报告,用于对工作进行全面总结。如税务部门的主要职能是“执好法、收好税、带好队、服好务”,某省国税局在总结工作时就归纳为“税收收入跃上新台...

干货零售行业的数据挖掘七步走
第七、关键成果固化IT系统，实现数据挖掘成果固化落地。对于零售商而言，数据挖掘是个不大不小的投入，对于关键的成果输出，总希望能够把成果规则进行IT固化，实现自动代替手工操作，这个时候经常需要搭建一个成果固化模块或系统，让数据挖掘能够最大限度帮助企业。

揭秘深层次挖掘用户需求的四个方法
对众多的属性进行分类整理，通过提问或自问产生特性联想，并考虑有没有遗漏的，如有新的要素须补充。4、找出最佳方案：按各个类别，对各种设想进行整理，内容重复的归为一类，从中找出最佳方案。以上是黄彦鸣分享的关于揭秘深层次挖掘用户需求的四个方法的相关内容，更多信息可以关注环球青藤分享更多干货。

干货创业对待数据挖掘要注意这5点
我们公司在做自己的数据驱动工作时学到的最大教训是——在建立产品之前先努力做好数据和情报的收集分析，并且，从第一天开始就把高度注意力放到用户上。以下是对待数据需要注意的5个要点，或将有助于你从数据中挖掘有价值的信息。1.先收集用户数据做数据驱动前，先做好对用户的数据收集。不断挑战自己...

数据挖掘十大经典算法及各自优势
数据挖掘十大经典算法及各自优势不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几...

干货分享 | 流程挖掘如何助力企业解决系统迁移难题?
在数字化转型的大潮中，流程挖掘技术作为关键工具，正帮助企业高效解决系统迁移的复杂挑战。据Everest Group的数据显示，尽管疫情冲击，2020-2022年间，流程挖掘市场预计将以70%-80%的年增长率增长。望繁信科技的数字足迹产品，以其自主研发的实力，帮助企业应对迁移过程中的诸多难题。系统迁移往往伴随着企业...

学了数据挖掘之后能干啥?
四、客户关系能力具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望; 具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力。进阶能力要求数据挖掘人员具备如下条件,可以提高数据挖掘项目的实施效率,缩短项目周期。具有数据仓库项...

数据挖掘技术客户价值分析
数据挖掘技术:客户价值分析使用RFM方法(最近购买日Recency, 各期购买频率Frequency, 各期平均单次购买金额Monetary)能够科学地预测老客户(有交易客户)今后的购买金额,再对销售毛利率、关系营销费用进行推算,就能按年、按季、按月分析出今后几期的客户价值。在这里,客户价值指CRM毛利。CRM毛利 = 购买金额 – 产品成...

富裕县13636295028： 聚类分析的算法 - ？
钦瑗盐酸： 聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法.传统的聚类算法可以被分为五类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法. 1 划分方法(PAM:PArtitioning method) 首先创建k个划分,k...

富裕县13636295028： 用于数据挖掘的聚类算法有哪些,各有何优势？
钦瑗盐酸： 1、层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离 1.1.2最具代表性算法 1)CURE算法特点:固定数目有代表性的点共同代表类优点:识别形状复杂,大小不...

富裕县13636295028： K - Means聚类算法原理是怎么样的? - ？
钦瑗盐酸： 一,K-Means聚类算法原理 k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小.聚类相似度是利用各聚类中对象的均值所获得...

富裕县13636295028： 什么是聚类分析?聚类算法有哪几种 - ？
钦瑗盐酸： 聚类分析的算法可以分为以下几大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等.

富裕县13636295028： 数据挖掘聚类算法是自动根据数据的特征聚类还是认为规定聚成几类 - ？
钦瑗盐酸： 聚类可以理解为根据你划定的半径取圈样本,圈出几类就是几类,半径大类就少,半径小类就多.中心选择可以随机选取,那就是无监督算法,现在有一种半监督算法,先用少量标记好的样本产生一些类别作为聚类中心,指导聚类的过程.可以使用kmeans和SVM结合

富裕县13636295028： 数据挖掘技术中聚类的几种常用方法比较 - ？
钦瑗盐酸： 摘要:数据挖掘是一门面向应用的新兴学科分支,它涵盖了众多领域的知识,是解决从大量信息中获取有用知识、提供决策支持的有效途径,具有广泛的应用前景,聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术.本文总结了大部分常用聚类算法的主要特点,对一些经典聚类算法进行比较并总结.

富裕县13636295028： 什么是聚类分析与数据挖掘? - ？
钦瑗盐酸： 聚类分析是数据挖掘中的一种,聚类就是把具有相似特性的个体聚在一起,形成一个类.类内的个体属性最接近,类间的属性最不相似.常用的聚类算法有C—mean.

富裕县13636295028： 聚类思想是什么意思 - ？
钦瑗盐酸：[答案] 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程.它是一种重要的人类行为. 聚类与分类的不同在于,聚类所要求划分的类是未知的. 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很...

富裕县13636295028： 聚类半径的意思?聚类半径的确定? - ？
钦瑗盐酸： 1.聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点.聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性.聚...

富裕县13636295028： 常用的聚类方法有哪几种?? - ？
钦瑗盐酸： 1.k-mean聚类分析适用于样本聚类; 2.分层聚类适用于对变量聚类; 3.两步聚类适用于分类变量和连续变量聚类; 4.基于密度的聚类算法; 5.基于网络的聚类; 6.机器学习中的聚类算法...

你可能想看的相关专题

星空见康网

数据挖掘干货总结（四）--聚类算法

你可能想看的相关专题