偏最小二乘法的计算方法

作者&投稿:文衫 (若有异议请与网页底部的电邮联系)
偏最小二乘法的诊断方法~

1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。3、对重要自变量的回归系数进行t检验,其结果不显著。特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。5、重要自变量的回归系数置信区间明显过大。6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。 最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为(4-5) (VIF)j =(1-R j2)-1式中,R j2是以xj为因变量时对其它自变量回归的复测定系数。所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。(VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为Cov(B)= σ2 (X'X)-1式中,σ2是误差项方差。所以,对于回归系数b j,有Var(b j)= σ2cjjcjj是(X'X)-1矩阵中第j个对角元素。可以证明,cjj =(VIF)j

与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。

首先将数据做标准化处理。X经标准化处理后的数据矩阵记为E0=( E01,…,E0p)n×p,Y的相应矩阵记为F0=( F01,…,F0q)n×q。
第一步 记t 1是E0的第一个成分,t 1= E0w1,w1是E0的第一个轴,它是一个单位向量,即|| w1||=1。
记u 1是F0的第一个成分,u 1= F0c1,c1是F0的第一个轴,并且|| c1||=1。
于是,要求解下列优化问题,即
(7-1)
记θ1= w1'E0'F0c1,即正是优化问题的目标函数值。
采用拉格朗日算法,可得
(7-8) E0'F0F0'E0w1=θ12 w1
(7-9) F0'E0E0'F0c1=θ12 c1
所以,w1是对应于E0'F0F0'E0矩阵最大特征值的单位特征向量,而c1是对应于F0'E0E0'F0矩阵最大特征值θ12的单位特征向量。
求得轴w1和c1后,即可得到成分
t 1= E0w1
u 1= F0c1
然后,分别求E0和F0对t 1的回归方程
(7-10) E0= t 1 p1'+ E1
(7-12) F0= t 1r1'+ F1
式中,回归系数向量是
(7-13) p1= E0' t 1/|| t 1||2
(7-15) r1= F0' t 1/|| t 1||2
而E1和F1分别是两个方程的残差矩阵。
第二步 用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第二个成分t2,u2,有
t 2= E1w2
u 2= F1c2
θ2=< t2, u2>= w2'E1'F1c2
w2是对应于E1'F1F1'E1矩阵最大特征值的单位特征向量,而c2是对应于F1'E1E1'F1矩阵最大特征值θ22的单位特征向量。计算回归系数
p2= E1' t 2/|| t 2||2
r2= F1' t 2/|| t2||2
因此,有回归方程
E1= t 2 p2'+ E2
F1= t 2r2'+ F2
如此计算下去,如果X的秩是A,则会有
(7-16) E0= t 1 p1'+…+t A pA'
(7-17) F0= t 1r1'+ …+t A rA'+ FA
由于t1,…,t A均可以表示成E01,…,E0p的线性组合,因此,式(7-17)还可以还原成yk*= F0k关于xj*= E0j的回归方程形式,即
yk*=αk1 x1*+…+αkp xp*+ FAk, k=1,2,…,q
FAk是残差矩阵FA的第k列。
3 交叉有效性
如果多一个成分而少一个样本的预测误差平方和(所有因变量和预测样本相加)除以少一个成分的误差平方和(所有的因变量和样本相加)小于0.952,则多一个成分是值得的。 用下述原则提取自变量中的成分t 1,是与原则式(7-1)的结果完全等价的,即
(7-24)
(1)求矩阵E0'F0F0'E0最大特征值所对应的单位特征向量w1,求成分t 1,得
t 1= E0w1
E1= E0-t 1 p1'
式中, p1= E0' t 1/|| t 1||2
(2)求矩阵E1'F0F0'E1最大特征值所对应的单位特征向量w2,求成分t2,得
t 2= E1w2
E2= E1-t 2 p2'
式中, p2= E1' t 2/|| t2||2
……
(m)至第m步,求成分tm= Em-1wm,wm是矩阵Em-1'F0F0'Em-1最大特征值所对应的单位特征向量.
如果根据交叉有效性,确定共抽取m个成分t1,…,tm可以得到一个满意的观测模型,则求F0在t1,…,tm上的普通最小二乘回归方程为
F0= t 1r1'+ …+t mrm'+ Fm
偏最小二乘回归的辅助分析技术
1 精度分析
定义自变量成分th的各种解释能力如下
(1)th对某自变量xj的解释能力
(8-1) Rd(xj; th)=r2(xj, th)
(2)th对X的解释能力
(8-2) Rd(X; th)=[r2(x1, th) + …+ r2(xp, th)]/p
(3)t1,…,tm对X的累计解释能力
(8-3) Rd(X; t1,…,tm)= Rd(X; t1) + …+ Rd(X; tm)
(4)t1,…,tm对某自变量xj的累计解释能力
(8-4) Rd(xj; t1,…,tm)= Rd(xj; t1) + …+ Rd(xj; tm)
(5)th对某因变量yk的解释能力
(8-5) Rd(yk; th)=r2(yk, th)
(6)th对Y的解释能力
(8-6) Rd(Y; th)=[r2(y1, th) + …+ r2(yq, th)]/q
(7)t1,…,tm对Y的累计解释能力
(8-7) Rd(Y; t1,…,tm)= Rd(Y; t1) + …+ Rd(Y; tm)
(8)t1,…,tm对某因变量yk的累计解释能力
(8-8) Rd(yk; t1,…,tm)= Rd(yk; t1) + …+ Rd(yk; tm)
2 自变量x j在解释因变量集合Y的作用
x j在解释Y时作用的重要性,可以用变量投影重要性指标VIP j来测度
VIP j 2=p[Rd(Y; t1) w1j2+ …+ Rd(Y; tm) wmj2]/[Rd(Y; t1) + …+ Rd(Y; tm)]
式中,whj是轴wh的第j个分量。注意 VIP1 2+ …+ VIP p2=p
3 特异点的发现
定义第i个样本点对第h成分th的贡献率Thi2,用它来发现样本点集合中的特异点,即
(8-10) Thi2=thi2/((n-1)s h2)
式中,s h2是成分th的方差。
由此,还可以测算样本点i对成分t1,…,tm的累计贡献率
(8-11) Ti2= T1i2+ …+ Tmi2

Ti2≥m(n2-1)F0.05(m,n-m)/(n2 (n-m))
时,可以认为在95%的检验水平上,样本点i对成分t1,…,tm的贡献过大。
单因变量的偏最小二乘回归模型
1 简化算法
第一步 已知数据E0,F0,由于u 1= F0,可得
w1= E0'F0/|| E0'F0||
t 1= E0w1
p1= E0' t 1/|| t 1||2
E1= E0-t 1 p1'
检验交叉有效性。若有效,继续计算;否则只提取一个成分t 1。
第h步(h=2,…,m) 已知数据Eh-1,F0,有
wh= Eh-1'F0/|| Eh-1'F0||
t h= Eh-1wh
ph= Eh-1' t h/|| t h||2
Eh= Eh-1-th ph'
检验交叉有效性。若有效,继续计算h+1步;否则停止求成分的计算。
这时,得到m个成分t1,…,t m,实施F0在t1,…,t m上的回归,得
F0^= r1t 1+ …+ rmt m
由于t1,…,t m均是E0的线性组合,即
t h= Eh-1wh= E0wh*
所以F0^可写成E0的线性组合形式,即
F0^= r1 E0w1*+ …+ rm E0wm*= E0[r1 w1*+ …+ rm wm*]
最后,也可以变换成y对x1,…,x p的回归方程
y^= α0+α1x1+ …+αp xp




最小二乘法公式是啥?
最小二乘法公式为a=y(平均)-b*x(平均)。在研究两个变量(x,y)之间的相互关系时,通常可以得到一系列成对的数据(x1,y1),(x2,y2)...(xm,ym);将这些数据描绘在x-y直角坐标系中,若发现这些点在一条直线附近,可以令这条直线方程如a=y(平均)-b*x(平均)。其中:a...

最小二乘法计算公式
最小二乘法的计算方法 1、先把n个数据测量值画在坐标纸上,如果呈现一种直线趋势,才可以进行最小二乘法(直线回归法)。2、然后就是计算这些n个数据点的横坐标和纵坐标的各自平均值。3、接着计算所有点的横坐标求和结果,以及所有点的纵坐标求和结果。4、然后是计算每个数据点横坐标的平方,然后求...

最小二乘法计算公式是什么?
最小二乘法公式是一个数学的公式,在数学上称为曲线拟合,此处所讲最小二乘法,专指线性回归方程!最小二乘法公式为a=y(平均)-b*x(平均)。最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使...

最小二乘法怎么计算?
最小二乘法是一种通过计算使离差平方和达到最小的方法,用于确定回归直线。其基本原理是找到一条直线,使得所有实际观察值(y的实际值,或称观察值)与该直线上的对应点的纵坐标之差的平方和最小。具体计算公式如下:a = σ[(yi - y均值) * (xi - x均值)] \/ σ[(xi - x均值)的平方]b ...

最小二乘法怎么计算?
计算方法:回归直线的求法通常是最小二乘法:离差作为表示xi对应的回归直线纵坐标y与观察值yi的差,其几何意义可用点与其在回归直线竖直方向上的投影间的距离来描述。数学表达:Yi-y^=Yi-a-bXi.总离差不能用n个离差之和来表示,通常是用离差的平方和即(Yi-a-bXi)^2计算。即作为总离差,并使之...

如何计算最小二乘法?
计算方法:y = Ax + B:a = sigma[(yi-y均值)*(xi-x均值)] \/ sigma[(xi-x均值)的平方];b = y均值 - a*x均值。知识拓展最小二乘法求回归直线方程的推导过程 这里的是为了区分Y的实际值y(这里的实际值就是统计数据的真实值,我们称之为观察值),当x取值(i=1,2,3……n)时,Y...

最小二乘法计算公式是什么
最小二乘法,这个数学概念在曲线拟合和线性回归中起着关键作用。其实质是通过寻找使误差平方和达到最小的线性函数,来近似数据的行为。其核心公式表达为:y的估计值(平均)= a + b*x(平均),其中a和b是通过优化计算得出的系数。作为一种优化技术,最小二乘法的特点显著。首先,它依赖于线性特性...

最小二乘法的计算方法
本文介绍最小二乘法的计算方法,适用于回归直线分析,曲线的不使用哦。先把n个数据测量值画在坐标纸上,如果呈现一种直线趋势,才可以进行最小二乘法。然后就是计算这些n个数据点的横坐标和纵坐标的各自平均值,利用如下计算公式:接着计算所有点的横坐标求和结果,以及所有点的纵坐标求和结果,:然后...

最小二乘法的计算方法
最小二乘法是一种常用的数据拟合方法,主要应用于数据点呈现直线趋势的场景。要通过最小二乘法计算回归直线,首先确保你手头有n个数据点,并在坐标纸上可视化它们。步骤如下:1. 找出数据点的横纵坐标的平均值:- 横坐标平均值 = 数据点横坐标的总和 \/ n - 纵坐标平均值 = 数据点纵坐标的总和 ...

如何理解最小二乘法的求解过程?
而Σ的作用域仅仅为后面的第一个式子,这里的式子可以理解为一个“乘除表达式”,而非“加减表达式”,这也是记忆该最小二乘法计算方法的关键!该公式的计算步骤在追问&追答中有,下面补充一个例子。问:设n=2,k1=3,k2=6,h=5。求Σki+h、Σ(ki+h)、Σki*h+h的值?解:我将西格玛的拆分...

矿区19562425719: 偏最小二乘法 - 搜狗百科
中鹏保儿:[答案] 最小二乘法公式:∑(X--X平)(Y--Y平)=∑X^2--nX平^2(针对y=ax+b形式)a=(NΣxy-ΣxΣy)/(NΣx^2-(Σx)^2)b=y(平均)-a*x(平均)

矿区19562425719: 请教偏最小二乘回归的详细计算过程. -
中鹏保儿: 解:∵:y x1 x2 x3=6y (乘法的交换律);∴:在自然数范围内,5 ,191,36 ,50,只有36符合条件,此时y=6.

矿区19562425719: 偏最小二乘法与最小二乘法有什么区别? -
中鹏保儿: 一、指代不同 1、偏最小二乘法:够在自变量存在严重多重相关性的条件下进行回归建模;允许在样本点个数少于变量个数的条件下进行回归建模. 2、最小二乘法:通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便...

矿区19562425719: 偏最小二乘法,简单介绍下吧,亲,不要官方解释,智商有限看不懂 -
中鹏保儿: 我只能说我知道,我用的比较多的是一元线性回归,用的是最小二乘法.通俗地说,就是有二组数据,一组数据是X,一组数据是Y,假设他们之间可以用Y=A+BX+E这个方式式表示,计算出这个方式程中的A,B,E 分别是多少,用的就是最少二乘法.

矿区19562425719: 如何学习偏最小二乘法 -
中鹏保儿: O(∩_∩)O~,看了你的资料,理工大学毕业是吧?不知道你是什么专业,我还是列出一些你需要看的吧. 偏最小二乘法一般是计算机专业的选修课程,需要一些基础课做铺垫:线性代数(也有地方叫 高等代数),高等数学(数学专业的叫 数学分析),数据结构(偏最小二乘法实际就是对数据结构的优化),图论基础(不需要太高深,优化思想能看懂就行,至于pascal定理不懂就跳过吧,用不上) BLESS,O(∩_∩)O~

矿区19562425719: 偏最小二乘法的基本内容 -
中鹏保儿: 与传统多元线性回归模型相比,偏最小二乘回归的特点是: (1)能够在自变量存在严重多重相关性的条件下进行回归建模; (2)允许在样本点个数少于变量个数的条件下进行回归建模; (3)偏最小二乘回归在最终模型中将包含原有的所有自变量; (4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声); (5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释. 在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n.

矿区19562425719: 谁能通俗的讲解一下偏最小二乘法的原理 -
中鹏保儿: 最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.

矿区19562425719: 偏最小二乘法的实例应用 -
中鹏保儿: 我帮你简单叙述下最小二乘法的概念 对于你所述的这种矛盾方程组 是工程上的常见问题 而用最小二乘法是为了得到一个解,使其在每个方程中的误差之和达到最小 但每个误差有正有负,因此我们就以“偏差的平方和最小”为原则具体的计算方法为 设矩阵A为矛盾方程组的系数矩阵 b为其等号右边的数值矩阵则方程组用矩阵可表示为AX=b两边同时左乘A的转置矩阵 即(AT)AX=(AT)b (T为上标,即A的转置)再解这个方程组 得到的解即为最优近似解

矿区19562425719: 偏最小二乘法的诊断方法 -
中鹏保儿: 1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大. 2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反. 3、对重要自变量的回归系数进行t检验,其结果不显著. 特别典型...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网