数据分类和聚类有什么区别

作者&投稿:长敬 (若有异议请与网页底部的电邮联系)
数据挖掘中分类分析和聚类分析的区别~

简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。分类分析 和 聚类分析,分别是挖掘中分析这两种方法(分类和聚类)的方法,比如分类分析的内容有分析在此样本情况下能够被分类的程度,并且依据此分析重新分布数据,使得数据更容易被分析,相关技术有多类判别分析、主成分分析。聚类分析指类似的能够衡量一个聚类方法的方法。小弟拙见,也是数据挖掘初学者。关于数据挖掘的相关学习,推荐CDA数据师的相关课程,课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。真正理解商业思维,项目思维,能够遇到问题解决问题。点击预约免费试听课

学习数据挖掘的朋友,对分类算法和聚类算法都很熟悉。无论是分类算法还是聚类算法,都有许多具体的算法来实现具体的数据分析需求。很多时候,我们难以判断选择分类或者聚类的场合是什么。我们最直观的概念是,分类和聚类都是把某个被分析的对象划分到某个类里面,所以觉得这两种方法实际上是差不多一回事。然而当我们学习了许多具体算法之后再回来看,分类和聚类所实现的数据分析功能实际上是大相径庭的,他们之间不仅仅有算法上的具体差异,更重要的是,甚至他们的应用领域和所解决的具体问题都不一样。
1.类别是否预先定义是最直观区别
算法书上往往这样解释二者的区别:分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。所以,对象所属类别是否为事先,是二者的最基本区别。而这个区别,仅仅是从算法实现流程来看的。
2.二者解决的具体问题不一样
分类算法的基本功能是做预测。我们已知某个实体的具体特征,然后想判断这个实体具体属于哪一类,或者根据一些已知条件来估计感兴趣的参数。比如:我们已知某个人存款金额是10000元,这个人没有结婚,并且有一辆车,没有固定住房,然后我们估计判断这个人是否会涉嫌信用欺诈问题。这就是最典型的分类问题,预测的结果为离散值,当预测结果为连续值时,分类算法可以退化为计量经济学中常见的回归模型。分类算法的根本目标是发现新的模式、新的知识,与数据挖掘数据分析的根本目标是一致的。
聚类算法的功能是降维。假如待分析的对象很多,我们需要归归类,划划简,从而提高数据分析的效率,这就用到了聚类的算法。很多智能的搜索引擎,会将返回的结果,根据文本的相似程度进行聚类,相似的结果聚在一起,用户就很容易找到他们需要的内容。聚类方法只能起到降低被分析问题的复杂程度的作用,即降维,一百个对象的分析问题可以转化为十个对象类的分析问题。聚类的目标不是发现知识,而是化简问题,聚类算法并不直接解决数据分析的问题,而最多算是数据预处理的过程。
3.有监督和无监督
分类是有监督的算法,而聚类是无监督的算法。有监督的算法并不是实时的,需要给定一些数据对模型进行训练,有了模型就能预测。新的待估计的对象来了的时候,套进模型,就得到了分类结果。而聚类算法是实时的,换句话说是一次性的,给定统计指标,根据对象与对象之间的相关性,把对象分为若干类。分类算法中,对象所属的类别取决于训练出来的模型,间接地取决于训练集中的数据。而聚类算法中,对象所属的类别,则取决于待分析的其他数据对象。
4.数据处理的顺序不同
分类算法中,待分析的数据是一个一个处理的,分类的过程,就像给数据贴标签的过程,来一个数据,我放到模型里,然后贴个标签。
聚类算法中,待分析的数据同时处理,来一堆数据过来,同时给分成几小堆。
因此,数据分类算法和数据聚类算法的最大区别是时效性问题。在已有数据模型的条件下,数据分类的效率往往比数据聚类的效率要高很多,因为一次只是一个对象被处理,而对于聚类结果来说,每当加入一个新的分析对象,类别结果都有可能发生改变,因此很有必要重新对所有的待分析对象进行计算处理。
5.典型的分类算法与聚类算法
典型的分类算法有:决策树,神经网络,支持向量机模型,Logistic回归分析,以及核估计等等。
聚类的方法有,基于链接关系的聚类算法,基于中心度的聚类算法,基于统计分布的聚类算法以及基于密度的聚类算法等等。

主要区别是,性质不同、目的不同、应用不同,具体如下:

一、性质不同

1、数据分类

数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。

2、数据聚类

数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。 

二、目的不同

1、数据分类

数据分类的目的是根据新数据对象的属性,将其分配到一个正确的类别中。

2、数据聚类

聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。

三、应用不同

1、数据分类

应用于统计学、计算机控制。

2、数据聚类

广泛应用于机器学习,数据挖掘,模式识别,图像分析以及生物信息等。

以上内容参考 百度百科-数据分类、百度百科-数据聚类



简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。

区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。

分类是已知类别。

聚类是未知类别。

典型的聚类分析一般包括三个阶段,特征选择、特征提取和数据对象见相似度的计算,可以对样品进行聚类也可以对变量进行聚类。具体划分如下:

K-means聚类

K-means聚类流程如下:

Step1:选择聚类个数k

Step2:生成k个聚类中心点

Step3:计算所有样本点到中心点的距离,根据距离进行聚类

Step4:进行迭代

Step5:重复迭代,达到收敛要求

K-means聚类算法效果分析一般可以看SSE指标、轮廓系数法、CH系数,需要分析人员在分析前进行多次对比从而达到模型更优的目的。

算法效果一般可以参考,SSE指标、轮廓系数、CH系数等等。

SSE指标(误差平方和):

误差平方和是指真实值和预测值的差,比如:

在聚类分析中的SSE计算如下:

从图片上来看SSE(左图)>SSE(右图),同时也可以看出左侧更稀疏右侧更密集,SSE想要达到最优解,还需要初始聚类中心的选择,否则只能达到一个局部最优解,初始聚类中心的选择可以参考“肘部法”,一般认为“拐点”即下降率突然变缓慢时,认为此点为最佳k值。比如:

轮廓系数(SC系数):

轮廓系数适用于实际类别信息未知的情况,结合凝聚度和分散度,计算如下:

CH系数:

利用协方差进行判断,类别内的协方差越小越好,类别之间的协方差越大越好,计算如下:

系统聚类

系统聚类按指标进行聚类,适用于小样本数据,其步骤如下:

  • 把每个指标各自归为一类,比如有n个样本,则为n类

  • 寻找最近的两个类,把它们归为一类,此时为n-1类

  • 重新计算距离,进行归类,直到所有样本归为一类,结束

  • 一般查看树状图进行查看数据分为几类更合适

  • 原理应用到pearson相关和欧式距离,其中欧式距离计算如下:

模糊聚类

模糊聚类,每个样本以一定的隶属度进行分类,首先进行构建模糊相似矩阵,不需要训练样本,一般计算原理使用夹角余弦法以及相关系数法。



你好,
简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。

区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。
希望回答对您有帮助.

分类是指有监督的学习,即要分类的样本是有标记的,类别是已知的;聚类是指无监督的学习,样本没有标记,根据某种相似度度量把样本聚为k类。


大数据挖掘主要涉及哪些技术?
例如,超市可以确定顾客在买草莓时也常买鲜奶油,反之亦然。关联通常用于销售点系统,以确定产品之间的共同趋势。2. 分类我们可以使用多个属性来标记特定类别的项。分类将项目分配到目标类别或类中,以便准确地预测该类内部会发生什么。某些行业会将客户进行分类。3. 聚类“聚类是将数据记录组合在一起的...

如何理解分类(聚类)与人工智能的关系?
聚类是用来研究人工智能的一种方法,前者内容和范围都比较小,后者范围更广更大。聚类是采用通过分析数据之间结构的差异将数据划分成不同的类别的一种研究方法。是在追寻人工智能道路上的一种尝试,是有别于经验学习模型的一种新方式。

聚类的含义是什么意思
详细解释如下:1. 基本定义:聚类是一种探索性的数据分析工具,用于发现数据中的模式和结构。在没有任何先验知识的情况下,它基于数据对象之间的相似性进行自动分类。2. 聚类原理:聚类算法通过计算数据点之间的距离或相似度来识别结构。相似的数据点被归为一类,形成一个簇。这个过程中,同一簇内的数据...

聚类什么意思
“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法...

聚类分析的分类及其典型算法
DBSCAN算法能够发现任意形状的簇,并对噪声点具有较强的鲁棒性,但参数的设定对聚类结果影响较大,且对于密度差异较大的数据集可能效果不佳。综上所述,聚类分析根据不同的划分标准有多种分类方式,每种分类下都有典型的算法实现。这些算法各有优缺点,在实际应用中需要根据数据的特点和需求来选择合适的...

聚类(Clustering)
我们先来认识一下聚类算法涉及到两个基本问题:性能度量 & 距离计算。后面我们再具体讲解聚类的经典算法。由于聚类算法是无监督式学习,不依赖于样本的真实标记。所以聚类并不能像监督学习例如分类那样,通过计算对错(精确度\/错误率)来评价学习器的好坏或者作为学习器的优化目标。一般来说,聚类有两类性...

聚类类别是什么意思
例如,通过对社交媒体用户行为进行聚类分类,我们可以更好地了解用户的兴趣和需求;通过对股票市场的聚类分类,我们可以更好地了解市场的趋势和特征;通过对医学数据的聚类分类,我们可以更好地了解疾病的发生机理和规律。在各种数据分析场景中,聚类类别的应用都能够为我们提供更多有价值的信息。实现聚类类别的...

聚类算法聚类算法分类
聚类算法是一类数据挖掘技术,用于对数据集中的对象进行分组,使得内部相似度高而外部相似度低。主要的聚类方法有以下几种:1. 分裂法(或称划分法),如K-MEANS、K-MEDOIDS和CLARANS算法,其基本思路是将数据集分成K个相互独立且内部紧密的聚类。这些算法从初始分组开始,通过迭代优化,使得同一聚类内的...

如何进行聚类分析?
如何进行聚类分析?聚类分析用于将样本进行分类处理,通常是以定量数据作为分类标准;用户可自行设置聚类数量,如果不进行设置,系统会提供默认建议;通常情况下,建议用户设置聚类数量介于3~6个之间。第一步:进行聚类分析设置 第二步:结合不同聚类类别人群特征进行类别命名 SPSSAU操作截图如下:SPSSAU结果如下:...

判别分析和聚类分析的区别
判别分析和聚类分析的区别是两种常用的统计分析方法,它们的主要区别在于:1、目的不同:判别分析的目的是寻找一个最优的判别函数,将观测数据分成不同的类别,而聚类分析的目的是寻找数据内部的相似性,将相似的数据归为同一类别。2、模型假设不同:判别分析的模型假设是各特征之间相互独立,而聚类分析的...

海拉尔区13375564855: 数据分类和聚类有什么区别 -
呼莫鹤蟾: 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类. 简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程. 区别是,分类是事先定...

海拉尔区13375564855: 数据挖掘中分类分析和聚类分析的区别
呼莫鹤蟾: 分类有监督 聚类无监督 就这个区别 分类要靠学习 聚类要靠启发式搜索

海拉尔区13375564855: 聚类算法和分类算法有什么区别么? -
呼莫鹤蟾: 聚类是未知结果会有多少类的,即可能聚成10个类也可能聚成100个类,只是根据某些相似性条件把数据聚合在一起,当然也有让用户自定义类数目的聚类算法,但这个数目也不好定的.分类是已知一共有多少类,并明确知道该类的特点,然后把未知的按一定规则分到某一个类中 聚类聚类的数据集要比较多,这样才有东西聚成一堆一堆的.分类可以多可以少,当然数据量大才能很好地说明分类算法的优异.但实际上分类算法在确定某些规则后,你可以只有一个未知的数据也可以把它分到某一个类别当中,但聚类如果只有一个未知的数据怎么聚啊.

海拉尔区13375564855: 聚类与分类分析之间有什么区别
呼莫鹤蟾: 通常,为有监督分类提供若干已标记的模式(预分类过),需要解决的问题是为一个新遇到的但无标记的模式进行标记.在典型的情况下,先将给定的无标记的模式用来学习〔训练),反过来再用来标记一个新模式.聚类需要解决的问题是将已...

海拉尔区13375564855: 数据挖掘有哪些工作流程 -
呼莫鹤蟾: 分析方法: 数据挖掘 · 分类 (Classification) · 估计(Estimation) · 预测(Prediction) · 相关性分组或关联规则(Affinity grouping or association rules) · 聚类(Clustering) · 描述和可视化(Description and Visualization) · 复杂...

海拉尔区13375564855: 数据挖掘中的聚类算法聚成几类是人为设定还是自动的?用SOM神经网络做聚类是不是就是人为设定好聚几类? -
呼莫鹤蟾: 可以选择默认的类数,也可以自己设定.建议不要超过9个类别.再看看别人怎么说的.

海拉尔区13375564855: 数据挖掘与传统分析方法有什么区别 -
呼莫鹤蟾: 回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘. ①分类.分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中...

海拉尔区13375564855: 文本分类和聚类有什么区别 -
呼莫鹤蟾: 聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术.分类和聚类都是将相似对象归类的过程.区别是,分类是事先定义好类别,类别数不变.分类器需要由人工标注的分类训练语料训练得到,...

海拉尔区13375564855: 主成分分析法和聚类分析法的区别 -
呼莫鹤蟾: 主成分分析法在过程中产生新变量,而聚类分析法在过程中没有产生新变量. 主成分分析法:一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列. 聚类分析法:理想的多变量统计技术,主要有分层聚类法和迭代聚类法.是研究分类的一种多元统计方法.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网