数据挖掘核心算法之一--回归

作者&投稿：方花（若有异议请与网页底部的电邮联系）

~ 数据挖掘核心算法之一--回归
回归，是一个广义的概念，包含的基本概念是用一群变量预测另一个变量的方法，白话就是根据几件事情的相关程度，用其中几件来预测另一件事情发生的概率，最简单的即线性二变量问题(即简单线性)，例如下午我老婆要买个包，我没买，那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性，这里有一点要注意的，因为我最早以前犯过这个错误，就是认为预测变量越多越好，做模型的时候总希望选取几十个指标来预测，但是要知道，一方面，每增加一个变量，就相当于在这个变量上增加了误差，变相的扩大了整体误差，尤其当自变量选择不当的时候，影响更大，另一个方面，当选择的俩个自变量本身就是高度相关而不独立的时候，俩个指标相当于对结果造成了双倍的影响)，还是上面那个例子，如果我丈母娘来了，那我老婆就有很大概率做饭;如果在加一个事件，如果我老丈人也来了，那我老婆肯定会做饭;为什么会有这些判断，因为这些都是以前多次发生的，所以我可以根据这几件事情来预测我老婆会不会做晚饭。
大数据时代的问题当然不能让你用肉眼看出来，不然要海量计算有啥用，所以除了上面那俩种回归，我们经常用的还有多项式回归，即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树)，即结果是分类变量的预测;泊松回归，即结果变量代表了频数;非线性回归、时间序列回归、自回归等等，太多了，这里主要讲几种常用的，好解释的(所有的模型我们都要注意一个问题，就是要好解释，不管是参数选择还是变量选择还是结果，因为模型建好了最终用的是业务人员，看结果的是老板，你要给他们解释，如果你说结果就是这样，我也不知道问什么，那升职加薪基本无望了)，例如你发现日照时间和某地葡萄销量有正比关系，那你可能还要解释为什么有正比关系，进一步统计发现日照时间和葡萄的含糖量是相关的，即日照时间长葡萄好吃，另外日照时间和产量有关，日照时间长，产量大，价格自然低，结果是又便宜又好吃的葡萄销量肯定大。再举一个例子，某石油产地的咖啡销量增大，国际油价的就会下跌，这俩者有关系，你除了要告诉领导这俩者有关系，你还要去寻找为什么有关系，咖啡是提升工人精力的主要饮料，咖啡销量变大，跟踪发现工人的工作强度变大，石油运输出口增多，油价下跌和咖啡销量的关系就出来了(单纯的例子，不要多想，参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例，感觉不够典型，就换一个，实际油价是人为操控地)。
回归利器--最小二乘法，牛逼数学家高斯用的(另一个法国数学家说自己先创立的，不过没办法，谁让高斯出名呢)，这个方法主要就是根据样本数据，找到样本和预测的关系，使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似，不过我那个例子在不确定的方面只说了大概率，但是到底多大概率，就是用最小二乘法把这个关系式写出来的，这里不讲最小二乘法和公式了，使用工具就可以了，基本所有的数据分析工具都提供了这个方法的函数，主要给大家讲一下之前的一个误区，最小二乘法在任何情况下都可以算出来一个等式，因为这个方法只是使误差和最小，所以哪怕是天大的误差，他只要是误差和里面最小的，就是该方法的结果，写到这里大家应该知道我要说什么了，就算自变量和因变量完全没有关系，该方法都会算出来一个结果，所以主要给大家讲一下最小二乘法对数据集的要求：
1、正态性：对于固定的自变量，因变量呈正态性，意思是对于同一个答案，大部分原因是集中的;做回归模型，用的就是大量的Y~X映射样本来回归，如果引起Y的样本很凌乱，那就无法回归
2、独立性：每个样本的Y都是相互独立的，这个很好理解，答案和答案之间不能有联系，就像掷硬币一样，如果第一次是反面，让你预测抛两次有反面的概率，那结果就没必要预测了
3、线性：就是X和Y是相关的，其实世间万物都是相关的，蝴蝶和龙卷风(还是海啸来着)都是有关的嘛，只是直接相关还是间接相关的关系，这里的相关是指自变量和因变量直接相关
4、同方差性：因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过，表示的数据集的变异性，所以这里的要求就是结果的变异性是不变的，举例，脑袋轴了，想不出例子，画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)
我们用回归方法建模，要尽量消除上述几点的影响，下面具体讲一下简单回归的流程(其他的其实都类似，能把这个讲清楚了，其他的也差不多)：
first，找指标，找你要预测变量的相关指标(第一步应该是找你要预测什么变量，这个话题有点大，涉及你的业务目标，老板的目的，达到该目的最关键的业务指标等等，我们后续的话题在聊，这里先把方法讲清楚)，找相关指标，标准做法是业务专家出一些指标，我们在测试这些指标哪些相关性高，但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱，没思路，没想法，没意见)，所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个)，然后跑一个相关性分析，在来个主成分分析，就过滤的差不多了，然后给业务专家看，这时候他们就有思路了(先要有东西激活他们)，会给一些你想不到的指标。预测变量是最重要的，直接关系到你的结果和产出，所以这是一个多轮优化的过程。
第二，找数据，这个就不多说了，要么按照时间轴找(我认为比较好的方式，大部分是有规律的)，要么按照横切面的方式，这个就意味横切面的不同点可能波动较大，要小心一点;同时对数据的基本处理要有，包括对极值的处理以及空值的处理。
第三，建立回归模型，这步是最简单的，所有的挖掘工具都提供了各种回归方法，你的任务就是把前面准备的东西告诉计算机就可以了。
第四，检验和修改，我们用工具计算好的模型，都有各种假设检验的系数，你可以马上看到你这个模型的好坏，同时去修改和优化，这里主要就是涉及到一个查准率，表示预测的部分里面，真正正确的所占比例;另一个是查全率，表示了全部真正正确的例子，被预测到的概率;查准率和查全率一般情况下成反比，所以我们要找一个平衡点。
第五，解释，使用，这个就是见证奇迹的时刻了，见证前一般有很久时间，这个时间就是你给老板或者客户解释的时间了，解释为啥有这些变量，解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的)，为啥做了这么久出的东西这么差(这个就尴尬了)等等。
回归就先和大家聊这么多，下一轮给大家聊聊主成分分析和相关性分析的研究，然后在聊聊数据挖掘另一个利器--聚类。

数据挖掘核心算法之一--回归
数据挖掘中，回归分析是一种核心算法，它基于一组变量来预测一个或多个变量。回归分析的基本理念是使用某些变量来估计其他变量的值，简而言之，就是根据几个已知因素来预测一个未知结果。最基础的形式是简单线性回归，涉及两个变量的线性关系，例如，通过温度来预测销售额。更复杂的形式包括多元线性回归，...

机器学习十大算法之一——决策树CART算法
作为十大数据挖掘算法之一，CART全称为Classification and regression tree，既支持分类也支持回归，但在实际应用中，CART算法主要用于解决分类问题。相比于ID3和C4.5算法，CART算法在拆分数据时使用Gini指数作为依据，每次将数据拆分成两个部分，且不设拆分次数限制，这与C4.5算法对特征使用次数的限制形成对比...

大数据处理技术有哪些
数据挖掘技术是大数据处理的核心技术之一。通过对海量数据的分析，挖掘出有价值的信息，为决策提供科学依据。数据挖掘技术包括分类、聚类、关联规则挖掘等。二、云计算技术云计算技术在大数据处理中发挥着重要作用。云计算通过网络将大量的数据资源进行管理和处理，可以实现数据的高效存储和计算。云计算的分布式...

聚类算法K-MEANS算法
在数据挖掘领域，k-means算法是一种常用的聚类方法。该算法的核心原理是依据给定的k值，将n个数据对象分为k个互不重叠的组，目标是使得每个组内的对象之间的相似度较高，而不同组间对象的相似度较小。这种相似度的度量是通过计算每个组的“中心对象”，即引力中心，来衡量的。中心对象是该组内所有对...

数据挖掘的方法有哪些?
3.预测方法。预测方法主要用于对知识的预测以及对连续数值型数据的挖掘，传统的预测方法主要分为：时间序列方法、回归模型分析法、灰色系统模型分析。而现在预测方法主要采用神经网络与支持向量机算法，进行数据分析计算，同时可预测未来数据的走向趋势。关于大数据挖掘工程师的课程推荐CDA数据分析师的相关课程，...

Apriori算法如何定义频繁项集?
在数据挖掘领域，Apriori算法 [1]占据着显著的地位，尤其在发现布尔关联规则的频繁项集方面。该算法的基石是基于两阶段频集挖掘的递归策略。其主要特点是单维度、单层次的关联规则分析，这里的关键词是布尔性质，即规则的成立与否只基于项目间的逻辑连接，无需考虑其它因素。在Apriori算法中，一个关键概念...

数据挖掘聚类算法概述
来源 | 知乎本篇重点介绍聚类算法的原理，应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。1.聚类 VS 分类分类是“监督学习”，事先知道有哪些类别可以分。聚类是“无监督学习”，事先不知道将要分成哪些类。举个例子，比如苹果、香蕉、...

用于数据挖掘的聚类算法有哪些,各有何优势
1、层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同：Single-Link:最近距离、Complete-Link：最远距离、Average-Link：平均距离 1.1.2最具代表性算法 1）CURE算法特点：固定数目有代表性的点共同代表类优点：识别形状复杂，大小不一的聚类，过滤孤立点 2）ROCK算法特点：对CURE算法的改进优...

数据挖掘按数据挖掘方法和技术分类有哪些
遗传算法的方法处理信息，得出有用的分析信息。数据挖掘过程是一个反复循环的过程，每一个步骤如果没有达到预期目标，都需要回到前面的步骤，重新调整并执行。从数据本身来考虑，通常数据挖掘需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等8个步骤。

2道关于数据挖掘的题目
在百度文库\/数据挖掘理论与技术习题解答上有你所要的答案。下面是地址：http:\/\/wenku.baidu.com\/view\/ea634e64783e0912a2162a4e.html

通化县17719446377： 数据挖掘中的回归指的是什么? - ？
潮雁诺氟： 回归是通过具有己知值的变量来预测其他变量的值.在最简单的情况下,回归采用的是象线性回归这样的标准统计技术.但在大多数现实世界中的问题是不能用简单的线性回归所能预测的.如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计,目这些变量本身往往都是非线性的.为此,人们又发明了许多新的乎段来试图解决这个问题,如逻辑回归、决策树、神经网络等. 一般同一个模型既可用于回归也可用于分类.如CART决策树算法既可以用于建立分类树,也可建立回归树.神经网络也一样.

通化县17719446377： 数据挖掘技术主要包括哪些 - ？
潮雁诺氟： 数据挖掘技术主要有决策树、神经网络、回归、关联规则、聚类、贝叶斯分类6中. 1、决策树技术. 决策树是一种非常成熟的、普遍采用的数据挖掘技术.在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成...

通化县17719446377： logistic回归原理什么用 - ？
潮雁诺氟： logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域.例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等.以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等.因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等.自变量既可以是连续的,也可以是分类的.然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素.同时根据该权值可以根据危险因素预测一个人患癌症的可能性.

通化县17719446377： 多元回归分析是数据挖掘的算法吗 - ？
潮雁诺氟： 算的,不要把数据挖掘想的有多么高深,所有的统计学方法都可以算作数据挖掘的一种方法当然之所以叫数据挖掘,是因为是从海量信息中挖掘有用信息的过程,也融合了很多交叉学科的原理和方法,其实从广义来说,数据挖掘也只是数据分析中的一个分支罢了.从广义来说,数据包含各种文本、图像、音频、数字等资料和信息,而分析则包括通过思维逻辑的质性分析、采用各种数学方法的量化分析

通化县17719446377： 数据挖掘的统计方法有哪些 - ？
潮雁诺氟： 数据挖掘中常用的统计方法一共有以下几种: 传统的统计方法包括回归分析、主成分分析、聚类分析、非机器学习方法:模糊集、粗糙集、支持向量机来源:数据堂

通化县17719446377： 数据挖掘的数据分析方法有哪些？
潮雁诺氟： 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘. ①分类.分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划...

通化县17719446377： 需要掌握哪些大数据算法 - ？
潮雁诺氟： 原发布者:ninahe916 大数据常用的算法(分类、回归分析、聚类、关联规则)

你可能想看的相关专题

星空见康网

数据挖掘核心算法之一--回归

你可能想看的相关专题