数据挖掘中 聚类算法 数据集在什么地方获取的?

作者&投稿:诸葛堵 (若有异议请与网页底部的电邮联系)
数据挖掘中的聚类,K-means算法如果在matlab中操作对数据集进行处理,并得到图像?~

哥们和我做的题目一样呀。。

1、层次聚类算法

1.1聚合聚类

1.1.1相似度依据距离不同:Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离

1.1.2最具代表性算法

1)CURE算法
特点:固定数目有代表性的点共同代表类
优点:识别形状复杂,大小不一的聚类,过滤孤立点
2)ROCK算法
特点:对CURE算法的改进
优点:同上,并适用于类别属性的数据
3)CHAMELEON算法
特点:利用了动态建模技术
1.2分解聚类

1.3优缺点

优点:适用于任意形状和任意属性的数据集;灵活控制不同层次的聚类粒度,强聚类能力
缺点:大大延长了算法的执行时间,不能回溯处理

2、分割聚类算法
2.1基于密度的聚类

2.1.1特点

将密度足够大的相邻区域连接,能有效处理异常数据,主要用于对空间数据的聚类
2.1.2典型算法

1)DBSCAN:不断生长足够高密度的区域
2)DENCLUE:根据数据点在属性空间中的密度进行聚类,密度和网格与处理的结合
3)OPTICS、DBCLASD、CURD:均针对数据在空间中呈现的不同密度分不对DBSCAN作了改进
2.2基于网格的聚类

2.2.1特点

利用属性空间的多维网格数据结构,将空间划分为有限数目的单元以构成网格结构;
1)优点:处理时间与数据对象的数目无关,与数据的输入顺序无关,可以处理任意类型的数据
2)缺点:处理时间与每维空间所划分的单元数相关,一定程度上降低了聚类的质量和准确性
2.2.2典型算法

1)STING:基于网格多分辨率,将空间划分为方形单元,对应不同分辨率
2)STING+:改进STING,用于处理动态进化的空间数据
3)CLIQUE:结合网格和密度聚类的思想,能处理大规模高维度数据
4)WaveCluster:以信号处理思想为基础
2.3基于图论的聚类

2.3.1特点

转换为组合优化问题,并利用图论和相关启发式算法来解决,构造数据集的最小生成数,再逐步删除最长边
1)优点:不需要进行相似度的计算
2.3.2两个主要的应用形式

1)基于超图的划分
2)基于光谱的图划分
2.4基于平方误差的迭代重分配聚类

2.4.1思想

逐步对聚类结果进行优化、不断将目标数据集向各个聚类中心进行重新分配以获最优解
2.4.2具体算法

1)概率聚类算法
期望最大化、能够处理异构数据、能够处理具有复杂结构的记录、能够连续处理成批的数据、具有在线处理能力、产生的聚类结果易于解释
2)最近邻聚类算法——共享最近邻算法SNN
特点:结合基于密度方法和ROCK思想,保留K最近邻简化相似矩阵和个数
不足:时间复杂度提高到了O(N^2)
3)K-Medioids算法
特点:用类中的某个点来代表该聚类
优点:能处理任意类型的属性;对异常数据不敏感
4)K-Means算法
1》特点:聚类中心用各类别中所有数据的平均值表示
2》原始K-Means算法的缺陷:结果好坏依赖于对初始聚类中心的选择、容易陷入局部最优解、对K值的选择没有准则可依循、对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡
3》K-Means的变体
Bradley和Fayyad等:降低对中心的依赖,能适用于大规模数据集
Dhillon等:调整迭代过程中重新计算中心方法,提高性能
Zhang等:权值软分配调整迭代优化过程
Sarafis:将遗传算法应用于目标函数构建中
Berkh in等:应用扩展到了分布式聚类
还有:采用图论的划分思想,平衡聚类结果,将原始算法中的目标函数对应于一个各向同性的高斯混合模型
5)优缺点
优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集
缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大
3、基于约束的聚类算法

3.1约束

对个体对象的约束、对聚类参数的约束;均来自相关领域的经验知识
3.2重要应用

对存在障碍数据的二维空间按数据进行聚类,如COD(Clustering with Obstructed Distance):用两点之间的障碍距离取代了一般的欧式距离
3.3不足

通常只能处理特定应用领域中的特定需求
4、用于高维数据的聚类算法

4.1困难来源因素

1)无关属性的出现使数据失去了聚类的趋势
2)区分界限变得模糊
4.2解决方法

1)对原始数据降维
2)子空间聚类
CACTUS:对原始空间在二维平面上的投影
CLIQUE:结合基于密度和网格的聚类思想,借鉴Apriori算法
3)联合聚类技术
特点:对数据点和属性同时进行聚类
文本:基于双向划分图及其最小分割的代数学方法
4.3不足:不可避免地带来了原始数据信息的损失和聚类准确性的降低

可以使用UCI上的标准数据集 http://archive.ics.uci.edu/ml/ ,kdd上的也行
其次是你看文显时文中提到的可以获得的数据及集

之前写论文要用到大量的数据,在数据淘(datataotao) 下载了一个关系的数据 ,
我发现 数据淘上还是有很多真实的数据集的,可以看看

数据挖掘论文中的实验部分都有写数据来源,找找相关论文就可以了。

cnki


十堰市18974104931: 数据挖掘中 聚类算法 数据集在什么地方获取的? -
王琦金钱: 可以使用UCI上的标准数据集 http://archive.ics.uci.edu/ml/ ,kdd上的也行 其次是你看文显时文中提到的可以获得的数据及集

十堰市18974104931: 聚类分析的算法 -
王琦金钱: 聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法.传统的聚类算法可以被分为五类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法. 1 划分方法(PAM:PArtitioning method) 首先创建k个划分,k...

十堰市18974104931: 数据挖掘技术主要包括哪些 -
王琦金钱: 数据挖掘技术主要有决策树 、神经网络 、回归 、关联规则 、聚类 、贝叶斯分类6中. 1、决策树技术. 决策树是一种非常成熟的、普遍采用的数据挖掘技术.在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成...

十堰市18974104931: 数据挖掘对聚类的数据要求是什么?
王琦金钱: 1. 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率 2. 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等等 3. 发现任意形状的能力 基于距离的聚类算...

十堰市18974104931: 用于数据挖掘的聚类算法有哪些,各有何优势
王琦金钱: 1、层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离 1.1.2最具代表性算法 1)CURE算法 特点:固定数目有代表性的点共同代表类 优点:识别形状复杂,大小不...

十堰市18974104931: 什么是聚类分析与数据挖掘? -
王琦金钱: 聚类分析是数据挖掘中的一种,聚类就是把具有相似特性的个体聚在一起,形成一个类.类内的个体属性最接近,类间的属性最不相似.常用的聚类算法有C—mean.

十堰市18974104931: k - means算法怎么为对称矩阵进行聚类? -
王琦金钱: 几种典型的聚类融合算法:1.基于超图划分的聚类融合算法(1)Cluster-based Similarity Partitioning Algorithm(GSPA)(2)Hyper Graph-Partitioning Algorithm(HGPA)(3)Meta-Clustering Algorithm(MCLA)2.基于关联矩阵的聚类融合算法 Voting-K-...

十堰市18974104931: 数据挖掘中的聚类算法聚成几类是人为设定还是自动的?用SOM神经网络做聚类是不是就是人为设定好聚几类? -
王琦金钱: 看了之前的回答,都不专业聚类分析是一种无指导的分析,如果理解聚类的核心含义,你就能明白,聚类的数量是没有标准的,必须人为设定,但是特殊的聚类方法可以给你一些参考,比如:系统聚类,它可以生成聚类树,这样你就能直观判断...

十堰市18974104931: 数据挖掘 聚类算法是自动根据数据的特征聚类还是认为规定聚成几类 -
王琦金钱: 聚类可以理解为根据你划定的半径取圈样本,圈出几类就是几类,半径大类就少,半径小类就多.中心选择可以随机选取,那就是无监督算法,现在有一种半监督算法,先用少量标记好的样本产生一些类别作为聚类中心,指导聚类的过程.可以使用kmeans和SVM结合

十堰市18974104931: 数据挖掘不同领域中的采样方法有哪些? -
王琦金钱: 1,关联规则的采样 挖掘关联规则的任务通常与事务处理与关系数据库相关,该任务需要反复遍历数据库,因此在大数据集上将花费大量的时间.有很多的算法可以改进关联规则算法的效率与精度,但在精度保证的前提下,采样是最直接与最简...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网