讲讲共线性问题

作者&投稿:璩壮 (若有异议请与网页底部的电邮联系)
~

假设有k个自变量的多元线性回归模型:

其中误差项是一个期望值为0且服从正态分布的随机变量:

则利用最小二乘法可得参数的估计值为:

该求解公式唯一的条件是矩阵X是列满秩的,不然会有无穷多解:

当各变量之间存在共线性问题,即各变量之间存在部分线性相关时,例如:

易知此时X近乎是不满秩的(实际情况很难完全共线性),X^TX近乎是奇异的,X的最小奇异值会非常小,那它的影响到底有多大呢?我们先从 矩阵计算 的角度来看。

对于一个方程或者系统而言,当输入有一个非常微小的扰动时,我们希望方程或系统的输出变化也非常微小,如果输出的变化非常大,且不能被控制,那这个系统的预测就无效了,蝴蝶效应讲的就是这个。在矩阵计算中,这叫做 扰动分析

可以看到矩阵的条件数越大,扰动就越大,即x的求解值会变得非常不准确。回到上面讲的线性回归问题,容易证明最小二乘法的解满足下面的正定方程:

此时

当方程有共线性问题时,X的最小特征值非常小,相应的,上述的条件数会非常大。也就是说机器学习中的共线性问题实际上就是矩阵计算中的条件数问题。 从实际应用的角度,一般若K<100,则认为多重共线性的程度很小,若是100<=K<=1000,则认为存在一般程度上的多重共线性,若是K>1000,则就认为存在严重的多重共线性。

再从统计学的角度来看共线性。可以证明参数$heta$的协方差矩阵为

又对任意的常数矩阵A和随机变量x有

代入上式即可得

具体到每个参数,有:

其中$R i 2 $是将第i个变量$x_i$作为因变量,其他k-1个变量作为自变量进行线性回归获得的$R 2 $,且令

方差膨胀因子 ( variance inflation factor ,VIF)。当

时,即当第i个变量和其他变量之间存在线性关系时,VIF趋于无穷大。所以 VIF 的大小反应了变量的共线性程度。一般地,当VIF大于5或10时,认为模型存在严重的共线性问题。

同时考虑参数显著性检验的 t 统计量

当存在共线性时,参数的标准差偏大,相应的 t 统计量 会偏小,这样容易淘汰一些不应淘汰的解释变量,使统计检验的结果失去可靠性。

另外考虑线性回归的残差

其中M是一个投影矩阵,且满足

易证明

而矩阵M的范数与X的条件数毫无关系,于是可以得出 共线性并不影响模型的训练精度 。但是对于泛化精度,由于参数的估计已经不准确啦,所以泛化误差肯定要差些,具体差多少,我还很难用公式表示出来。

总结一下,共线性问题对线性回归模型有如下影响:

根据上一节的描述,共线性问题有如下几种检验方法:

当变量数不多,样本数不是很大时,上述的方法是没问题的,检验某个变量有共线性问题时,可以结合实际业务考虑直接剔除该变量。但是有的时候变量数大到有上千个,VIF的计算需要建立上千个回归模型(条件数仅能判定是否存在共线性,但不能找到对应的变量),这将耗费很长时间。

事实上我们可以从模型角度来直接规避共线性问题。

主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间。当采取主成分提取了新的变量后,往往这些变量间的组内差异小而组间差异大,起到了消除共线性的问题。

逐步回归(Stepwise Regression)是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。

岭回归是一种可用于共线性数据分析的有偏估计回归方法,它是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对条件数很大(病态数据)的拟合要强于最小二乘法。

在线性回归问题中,最小二乘法实际上是最小化问题:

而岭回归则是加入了L2惩罚项:

这样参数的方差不会过大,且随着惩罚项系数C的增大,共线性的影响将越来也小。在这个过程中,可以记录$heta(k)$(岭迹)的变化情况,通过对岭迹的波动来判断我们是否要剔除该变量。

那为什么说岭回归能解决共线性问题呢?从矩阵计算的角度来看,L2正则化下方程的解为:

在上一节我们讲到共线性代表正定矩阵X T X的条件数很大:

而当条件数很大时,矩阵的逆的数值计算也是非常不准确的,但是当我们给矩阵加上一个单位矩阵时,奇异性(不可逆)问题就完全没有啦。

进一步考虑对惩罚项对奇异值的影响,假设X的奇异值(SVD)分解为:

则容易证明

其中D是对角矩阵,且满足

其反应了惩罚项是如何影响到条件数的。

LASSO回归和岭回归类似,只不过将惩罚项由L2范数改为了L1范数

L1范数没有L2范数那么圆润,毕竟存在不可导点,而且在L1范数下LASSO回归也给不出解析解啦,但是相对于岭回归,LASSO估计的参数能更容易收敛到0

ElasticNet回归同时兼顾了L1和L2惩罚项:

当许多变量是相关的时候,Elastic-net是有用的。Lasso一般会随机选择其中一个,而Elastic-net则会选在两个。

除此之外,还有L0范数(非零元的个数)、L1/2范数等。

首先捏造一份好的数据,样本量为100,特征数为8,且满足方程:

其中误差项是期望为0,标准差为1.5的正态分布随机变量。

此时平均准确率为0.934955,拟合的系数MSE为0.203657

然后我们基于这份数据另外构造出两份数据,第二份数据增加两个随机的特征用作对比,第一份数据则增加两个共线性特征:

先来看下它们的条件数

可以看到X2的条件数很搭,最小奇异值为0.213,此时还不至于完全共线性。

拿这两份数据重新用线性回归拟合模型。

对于第二份共线性构造数据X2,有平均测试集准确率为0.932070,拟合的参数MSE为7.697837。可以看到MSE增加了很多,准确率也下降了0.2%,测试拟合的系数为:

在来看对比用的数据X3,其平均测试集准确率为0.934952,参数MSE为0.171651,与X1无异。

以上是直接的结果,我们再来看VIF

可以看到第0、1、2、3、8、9个特征的VIF都过高。且可以看出第1个特征相对第0、2、3个特征的VIF较高。

最后我们试着用模型的方法来检测共线性问题

其中当alpha取0.1时,岭回归估计的系数分别为

可以看到第0、1、2、3、8、9个变量都出现了波动,代表它们之间存在一定的共线性。观察岭迹,我们可以考虑剔除其中波动比较大的第1、8、9个变量。

另外Lasso回归类似,可以用sklearn中的linear_model.Lasso来学习,这里就不展示了。最后对于逻辑回归任务,sklearn函数内部提供了L1或L2正则化方案,通过它们也可以去检测共线性问题。

[1]. variance inflation factor
[2]. 多重共线性的解决方法之——岭回归与LASSO
[3]. ridge regression




讲讲共线性问题
也就是说机器学习中的共线性问题实际上就是矩阵计算中的条件数问题。 从实际应用的角度,一般若K<100,则认为多重共线性的程度很小,若是100<=K<=1000,则认为存在一般程度上的多重共线性,若是K>1000,则就认为存在严重的多重共线性。 再从统计学的角度来看共线性。可以证明参数$\\theta$的协方差矩阵为 又对...

什么是共线性?
共线性是指信息具有重叠关系,比如X1为身高,X2为体重,二者具有一定的信息重叠,身高和体重都可以表示身体的轮廓情况。当共线性问题过于严重时,比如某两项之间相关系数大于0.8甚至0.9时,那么进行某些分析(尤其是回归分析,比如线性回归,二元logit回归等等各类回归研究方法时)时,会对模型带来影响,严...

什么是线性模型的共线性问题?如何解决
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在...

共线性问题
共线性问题在统计学和机器学习中是至关重要的,它指的是多个解释变量之间存在高度相关性或精确相关关系,这可能使模型估计失真或难以准确估计。共线性的一般性影响在于,过多相关度很高的特征实际上并未提供额外的信息量,相反,数据集的特征数量增多可能增加噪声影响和特征偏移的风险。因此,数据集的特征数...

多重共线性问题及处理流程
多重共线性:理解与应对的艺术 在多元线性回归的世界里,数据的关联性如同一张复杂的关系网。当自变量间存在过度的线性相关,我们称之为共线性,它可能源于完全共线(罕见的巧合)或近似共线(更为常见)。对于判断,相关系数的阈值通常设为0.8,VIF值超过10则可能暗示问题。这两者都是我们诊断共线性的...

一文讲解机器学习算法中的共线性问题
从统计学角度,参数的协方差矩阵与方差膨胀因子(VIF)描述了共线性程度。当VIF大于5或10时,认为模型存在严重共线性问题。共线性影响参数显著性检验的t统计量,导致不应淘汰的解释变量被误删,使统计检验结果失去可靠性。共线性问题的解决方法包括主成分分析、逐步回归、岭回归、L2正则化、LASSO回归、Elastic...

多重共线性问题怎么解决
2、追加样本信息:多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因而追加样本信息是解决该问题的一条有效途径。但,由于资料收集及调查的困难,要追加样本信息在实践中有时并不容易。3、利用非样本先验信息非样本先验信息主要来自经济理论分析和经验认识。充分利用这些先验的信息,...

如何处理多重共线性问题
当回归模型中的自变量高度相关(如相关系数大于0.7)时,面临多重共线性问题。为了解决这一问题,首先需判断自变量间的相关性,有3种常用方法:相关分析和VIF值检验。若共线性不严重(VIF<5),通常无需特殊处理;否则,可采取如手动移除相关性高的变量、逐步回归、增加样本量或使用岭回归等方法。在...

指数是否存在共线性问题
共线性又叫做多重共线性,是指自变量之间存在较强的,甚至完全的线性相关关系。影响:当自变量之间存在共线性时,模型的参数会变得极其不稳定,模型得预测能力会下降。很难确切区分每个自变量对因变量得影响,因此增加了对于模型结果得解释成本。因此,在建模前期得变量得筛选环节,就需要采取有效措施避免共...

多重共线性问题如何解决?
多重共线性是非常正常的,甚至不能称之为一个“问题”,只不过是一个“现象”。 多重共线性不会导致系数有偏,但是会影响估计的效率。 换言之,就是体现在显著性的降低上。 如果多重共线性并没有对结果的显著性产生很大的影响,就可以不必处理。多重共线性实质上是数据问题,理论上高度相关的变量...

延吉市15061547426: 共线是什么 -
揣疤先泰: 共线有两种意思: 1、在任何几何中,一条线上的点的集合被认为是共线的.在欧几里德几何中,这种关系通过在“直线”上的点直观地显示出来.然而,在大多数几何(包括欧几里德)中,线条通常是原始(未定义)对象类型,因此这种可视...

延吉市15061547426: 求计量经济学高手解答:异方差性、序列相关性、多重共线性的原因以及?
揣疤先泰: 对比OLS回归的假设就明白啦异方差因为违反了残差序列同方差的假定序列自相关违反了残差序列独立不相关的假定多重共线性违反了各个自变量独立不相关的假定如果违反这些假定都会影响OLS回归系数的有效性

延吉市15061547426: 实证会计的实证步骤 -
揣疤先泰: 变量影响的确定存在两方面的困难:一是广泛使用替代变量;二是变量共线性问题.在现行的实证研究中利用替代变量来开展研究,主要是因为有些变量还难以直接量化,因此在行为选择研究中都广泛使用替代变量,如用分红计划、负债权益比...

延吉市15061547426: 经济模型中的多重共线性和异方差问题,急求!!!! -
揣疤先泰: 应该做异方差检验!你的导师应该因此给你加分!首先,如果模型的误差项是heteroskedastic的,而你却用了普通的OLS去计算.计算出的coefficients,从长期上看是consistent的.但是,针对系数做的显著性检验(比如t-test)确实极具误导性...

延吉市15061547426: spss如何求主成分分析的成分系数怎么求
揣疤先泰: 主成分分析,是现将原始数据标准化;建立变量之间的相关系数矩阵;求R的特征值和特征向量;写出主成分并进行分析. spss的操作:分析-回归分析-线性.将变量选入因变量,将其他几个考察因素选入自变量. 进行多重回归分析及共线性诊断.之后金牛星主成分分析确定所需主成分 操作:分析-降维-因子分析,打开主成分分析,将变量选入列表框.

延吉市15061547426: 若作用力是弹力,则反作用力一定是弹力,这句话正确吗 -
揣疤先泰: 牛顿第三定律 1.内容 两个物体之间的作用力与反作用力总是大小相等,方向相反,作用在一条直线上. 2.理解 (1)普适性:无论在何时、何地、何种情形、何种条件下,牛顿第三定律都是成立的,不受质量大小,运动状态等因素的影响. (2)...

延吉市15061547426: 三因子模型的回归怎么做 -
揣疤先泰: 线性回归,是统计学领域的方法,用的时候需要关注假设条件是否满足、模型拟合是否达标,参数是否显著,自变量之间是否存在多重共线性等等问题因为统计学是一个过程导向的,需要每一步都要满足相应的数学逻辑.下面讲讲我对线性回归...

延吉市15061547426: 如何进行异方差与自相关检验 -
揣疤先泰: 一般来讲,时间序列数据较少出现异方差现象,更多地是序列相关问题. 用stata软件实现异方差的检验,最直观的是用图示法.作出残差关于某一解释变量的散点图

延吉市15061547426: 相关因素logistic回归分析结果怎么看 -
揣疤先泰: logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型.并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的. 首要的条件应该是需要看一下自变量与因变量之间是...

延吉市15061547426: 沟通的基本理论有 -
揣疤先泰: 一、有效沟通的真实性原理有效沟通的真实性原理,即有效沟通必须是对有意义的信息需要传递.没有有真正意义的信息需要传递,哪怕整个沟通的过程全部完整,沟通也会因为没有任何实质内容而失去其价值和意义,即使完整无缺的沟通成...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网