求一个数据挖掘的算法，在线等，可以追分

作者&投稿：咎戴（若有异议请与网页底部的电邮联系）

求一个数据挖掘的算法~

试论贝叶斯分类、决策树分类分类挖掘算法的优势与劣势，以及解决维度效应的策略

引言数据分类是指按照分析对象的属性、特征，建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一，主要是通过分析训练数据样本，产生关于类别的精确描述。这种类别通常由分类规则组成，可以用来对未来的数据进行分类和预测。分类技术解决问题的关键是构造分类器。一．数据分类数据分类一般是两个步骤的过程：第1步：建立一个模型，描述给定的数据类集或概念集（简称训练集）。通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类，由类标号属性确定。用于建立模型的元组集称为训练数据集，其中每个元组称为训练样本。由于给出了类标号属性，因此该步骤又称为有指导的学习。如果训练样本的类标号是未知的，则称为无指导的学习（聚类）。学习模型可用分类规则、决策树和数学公式的形式给出。第2步：使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。常用的分类规则挖掘方法分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有以下几种方法，不同的方法适用于不同特点的数据： 1．贝叶斯方法 2．决策树方法 3．人工神经网络方法 4．约略集方法 5．遗传算法分类方法的评估标准：准确率：模型正确预测新数据类标号的能力。速度：产生和使用模型花费的时间。健壮性：有噪声数据或空缺值数据时模型正确分类或预测的能力。伸缩性：对于给定的大量数据，有效地构造模型的能力。可解释性：学习模型提供的理解和观察的层次。影响一个分类器错误率的因素 (1) 训练集的记录数量。生成器要利用训练集进行学习，因而训练集越大，分类器也就越可靠。然而，训练集越大，生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。 (2) 属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合，使得生成器难度增大，需要的时间也更长。有时随机的关系会将生成器引入歧途，结果可能构造出不够准确的分类器（这在技术上被称为过分拟合）。因此，如果我们通过常识可以确认某个属性与目标无关，则将它从训练集中移走。 (3) 属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签（如试图根据某人眼睛的颜色来决定他的收入）。加入其他的属性（如职业、每周工作小时数和年龄），可以降低错误率。 (4) 待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布，那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器，那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途，因为数据属性值的分布可能是有很大差别的。评估方法有两种方法可以用于对分类器的错误率进行评估，它们都假定待预测记录和训练集取自同样的样本分布。 (1) 保留方法(Holdout)：记录集中的一部分（通常是2/3）作为训练集，保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器，然后使用这个分类器来对测试集进行分类，得出的错误率就是评估错误率。虽然这种方法速度快，但由于仅使用2/3 的数据来构造分类器，因此它没有充分利用所有的数据来进行学习。如果使用所有的数据，那么可能构造出更精确的分类器。 (2) 交叉纠错方法(Cross validation)：数据集被分成k 个没有交叉数据的子集，所有子集的大小大致相同。生成器训练和测试共k 次；每一次，生成器使用去除一个子集的剩余数据作为训练集，然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t)，对于一个t 次k 分的交叉纠错法，k ＊t 个分类器被构造并被评估，这意味着交叉纠错法的时间是分类器构造时间的k ＊t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整，将它减少到3 或5，这样可以缩短运行时间。然而，减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合，或者多于5000 条记录的数据集；交叉纠错法被用于建立最终的分类器，或者很小的数据集。二．贝叶斯分类贝叶斯分类方法是一种具有最小错误率的概率分类方法，可以用数学公式的精确方法表示出来，并且可以用很多种概率理论来解决。设（Ω,Θ,P）为概率空间，Ai∈Θ（i=1,2,…,n）为Ω的一个有穷剖分，且P(Ai)>0 (i=1,2,…,n)，则对任意B∈Θ且P(B)>0，有 P(Ai|B)= （i=1,2,…,n）上式称为贝叶斯公式。贝叶斯定理为我们提供了一个计算假设h的后验概率的方法 P(h|D)= 分类有规则分类和非规则分类，贝叶斯分类是非规则分类，它通过训练集训练而归纳出分类器，并利用分类器对没有分类的数据进行分类。贝叶斯分类的特点贝叶斯分类具有如下特点： (1) 贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类； (2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类； (3) 贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。理论上，它看起来很完美，但在实际中，它并不能直接利用，它需要知道证据的确切分布概率，而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。三．决策树分类决策树（Decision Tree）又称为判定树，是运用于分类的一种树结构。其中的每个内部结点（internal node）代表对某个属性的一次测试，每条边代表一个测试结果，叶结点（leaf）代表某个类（class）或者类的分布（class distribution），最上面的结点是根结点。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树，它的输入是一组带有类别标记的训练数据。二叉树的内部结点（非叶结点）一般表示为一个逻辑判断，如形式为(a = b)的逻辑判断，其中a 是属性，b是该属性的某个属性值；树的边是逻辑判断的分支结果。多叉树（ID3）的内部结点是属性，边是该属性的所有取值，有几个属性值，就有几条边。树的叶结点都是类别标记。使用决策树进行分类分为两步：第1步：利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。第2步：利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根结点依次测试记录的属性值，直到到达某个叶结点，从而找到该记录所在的类。问题的关键是建立一棵决策树。这个过程通常分为两个阶段： (1) 建树（Tree Building）：决策树建树算法见下，可以看得出，这是一个递归的过程，最终将得到一棵树。 (2) 剪枝（Tree Pruning）：剪枝是目的是降低由于训练集存在噪声而产生的起伏。决策树方法的评价。优点与其他分类算法相比决策树有如下优点： (1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂条件就能够唯一确定一条分类的谓词。 (2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要。缺点一般决策树的劣势： (1) 缺乏伸缩性：由于进行深度优先搜索，所以算法受内存大小限制，难于处理大训练集。一个例子：在Irvine机器学习知识库中，最大可以允许的数据集仅仅为700KB，2000条记录。而现代的数据仓库动辄存储几个G-Bytes的海量数据。用以前的方法是显然不行的。 (2) 为了处理大数据集或连续量的种种改进算法（离散化、取样）不仅增加了分类算法的额外开销，而且降低了分类的准确性，对连续性的字段比较难预测，当类别太多时，错误可能就会增加的比较快，对有时间顺序的数据，需要很多预处理的工作。但是，所用的基于分类挖掘的决策树算法没有考虑噪声问题，生成的决策树很完美，这只不过是理论上的，在实际应用过程中，大量的现实世界中的数据都不是以的意愿来定的，可能某些字段上缺值（missing values）；可能数据不准确含有噪声或者是错误的；可能是缺少必须的数据造成了数据的不完整。另外决策树技术本身也存在一些不足的地方，例如当类别很多的时候，它的错误就可能出现甚至很多。而且它对连续性的字段比较难作出准确的预测。而且一般算法在分类的时候，只是根据一个属性来分类的。在有噪声的情况下，完全拟合将导致过分拟合（overfitting），即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是一种克服噪声的技术，同时它也能使树得到简化而变得更容易理解。另外，决策树技术也可能产

Apriori算法是一种发现频繁项集的基本算法。算法使用频繁项集性质的先验知识。Apriori算法使用一种称为逐层搜索的迭代方法，其中K项集用于探索(k+1)项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记为L1.然后，使用L1找出频繁2项集的集合L2，使用L2找到L3，如此下去，直到不能再找到频繁k项集。
Apriori算法的主要步骤如下：
(1)扫描事务数据库中的每个事务，产生候选1．项集的集合Cl；
(2)根据最小支持度min_sup，由候选l-项集的集合Cl产生频繁1一项集的集合Ll；
(3)对k=l；
(4)由Lk执行连接和剪枝操作，产生候选(k+1)．项集的集合Ck+l-
(5)根据最小支持度min_sup，由候选(k+1)一项集的集合Ck+l产生频繁(k+1)-项
集的集合Lk+1．
(6)若L⋯≠①，则k．k+1，跳往步骤(4)；否则，跳往步骤(7)；
(7)根据最小置信度min_conf,由频繁项集产生强关联规则，结束。

数据挖掘的方法有哪些?
分类挖掘方法主要利用决策树进行分类，是一种高效且在数据挖掘方法中占有重要地位的挖掘方法。为了对数据进行较为准确的测试并据此分类，我们采用决策树算法，而决策树中比较典型的几种方法为：ID3算法，此方法具有较强的实用性，适用于大规模数据处理；KNN算法，此方法算量较大，适用于分别类别的数据处理。...

数据挖掘算法有哪些
以下主要是常见的10种数据挖掘的算法，数据挖掘分为：分类（Logistic回归模型、神经网络、支持向量机等）、关联分析、聚类分析、孤立点分析。每一大类下都有好几种算法，这个具体可以参考数据挖掘概论这本书（英文最新版）

数据挖掘干货总结(四)--聚类算法
二、分类算法用来解决什么问题文本聚类、图像聚类和商品聚类，便于发现规律，以解决数据稀疏问题三、聚类算法基础知识 1. 层次聚类 vs 非层次聚类 – 不同类之间有无包含关系 2. 硬聚类 vs 软聚类 – 硬聚类：每个对象只属于一个类 – 软聚类：每个...

数据挖掘核心算法之一--回归
数据挖掘核心算法之一--回归回归，是一个广义的概念，包含的基本概念是用一群变量预测另一个变量的方法，白话就是根据几件事情的相关程度，用其中几件来预测另一件事情发生的概率，最简单的即线性二变量问题(即简单线性)，例如下午我老婆要买个包，我没买，那结果就是我肯定没有晚饭吃;复杂一点就是多...

大数据挖掘常用的方法有哪些?
4、关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键...

数据挖掘的常用算法有哪几类
3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法...

数据挖掘中常用的方法有哪些?基本流程是什么?
关联规则挖掘：在数据集中发现项与项之间的相关性，例如Apriori算法等。预测建模：利用历史数据的模式寻找未来的趋势和预测，例如基于回归分析、时间序列分析等。数据挖掘的基本流程包括：选择数据集、数据预处理、特征选择、模型选择、模型评估和模型应用。其中，数据预处理是数据挖掘过程中最重要的一步，包括...

数据挖掘里面最简单的算法是什么
鄙人认为k-means算法不怎么难，不论是一维的还是二维的，用c或c++实现都不十分复杂，这方面的代码也很多。算法描述:K均值聚类算法:给定类的个数K，将N个对象分到K个类中去，使得类内对象之间的相似性最大，而类之间的相似性最小。基本算法的步骤：输入：k, data[n];（1）选择k个初始中心点，...

急用!!!数据挖掘的六种常用算法和技术分别是什么
原因：大量的商业软件应用覆盖了数据挖掘一个较广的范围直接数据挖掘目标是预言，估值，分类，预定义目标变量的特征行为神经元网络；决策树间接数据挖掘：没有目标变量被预言，目的是发现整个数据集的结构聚集检测自动聚集检测方法 K-均值是讲整个数据集分为K个聚集的算法。K-均值聚集检测如何...

常见的数据挖掘方法有哪些
数据挖掘的常用方法有：神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、...

侯马市15719748270： 求一个可用的数据挖掘方法 - ？
堵婉蒲公： 这个可以用判别分析,先输入一些样本,就是各种元素含量,以及结果===合格/不合格.完了后,输入一批新数据,就可以自动判定是否合格,如果你还不确定哪些变量导致的,先用二元分类器判定下吧.

侯马市15719748270： 数据挖掘的经典算法有什?数据挖掘的经典算法有什么 ？
堵婉蒲公： 3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中4.Apriori:是一种最有影响的挖掘布尔关联规则频繁项集的算法

侯马市15719748270： 用于数据挖掘的分类算法有哪些,各有何优劣 - ？
堵婉蒲公： 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n.它与处理混合正态分布的最...

侯马市15719748270： Web数据挖掘的方法? - ？
堵婉蒲公： (1)协同过滤:协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算.(2)关联规则:关联规则是寻找在同一个事件中出现的不同项的相关...

侯马市15719748270： 用于数据挖掘的聚类算法有哪些,各有何优势 - ？
堵婉蒲公： 适用于个案或变量聚类,对分类数没有要求,连续性和分类型变量均适用;两步聚类,适用于大样本的个案聚类,适用于连续性变量;系统聚类,分类数明确K均值聚类:最适合处理大数据:1)分类变量和连续变量均可参与二阶聚类

侯马市15719748270： 聚类分析的算法 - ？
堵婉蒲公： 聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法.传统的聚类算法可以被分为五类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法. 1 划分方法(PAM:PArtitioning method) 首先创建k个划分,k...

侯马市15719748270： 从大量数据集中找出异常数据一般用什么数据挖掘算法 - ？
堵婉蒲公： 聚类吧,异常数据一般会聚集到一类..聚类方法太多,要根据实际情况选择..

侯马市15719748270： 社交网络的数据挖掘用什么算法 - ？
堵婉蒲公： 这个问题涉及到两个事情1.如何获得数据.可以通过新浪的api或者其他围脖的api来跟踪获取.获取数据的途径,获取哪些数据需要找到方法2.挖掘的目的是?你想知道什么?从sns数据中一般可以挖掘出:希望对你有些帮助,ITJOB

侯马市15719748270： 数据挖掘常用的技术和方法有哪些,请详细一点,谢谢 - ？
堵婉蒲公： 数据挖掘问题类型对应的技术 ①数据描述和汇总 ②分群: 聚类、神经网路、可视化 ③概念描述: 规则归纳、概念聚类 ④分类: 判别分析、规则归纳、决策树、神经网络、K最近邻、基于案例的推理、遗传算法 ⑤预测: 回归分析、回归树、神经网络、K最近邻、博克斯一詹金斯、遗传算法 ⑥相关分析: 相关分析、回归分析、关联规则、贝叶斯网络、归纳逻辑程序设计、可视化技术

侯马市15719748270： 列哪些算法可以应用于大数据挖掘 - ？
堵婉蒲公： 基本上传统数据挖掘中的算法都可以应用,只是在大数据挖掘时需要额外考虑算法复杂性对于数据量的关系,如果是呈指数之类的关系,就不能应用了.

你可能想看的相关专题

星空见康网

求一个数据挖掘的算法，在线等，可以追分

你可能想看的相关专题