主成分分析(PCA)

作者&投稿:杜仲 (若有异议请与网页底部的电邮联系)
~

主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。

统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。

主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。

方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行

假设 是m维随机变量,其均值是
,
协方差矩阵是

考虑到m维随机变量 到m维随机变量 的线性变换

其中

由随机变量的性质可知

总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件

设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是

的第k主成分的方差是

即协方差矩阵 的第k个特征值

首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的

求第一主成分就是求解最优化问题

定义拉格朗日函数

其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得

因此 是 的特征值, 是对应的单位特征向量。于是目标函数

假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值

接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大

求第二主成分需参求解约束最优化问题

定义拉格朗日函数

其中 对应拉格朗日乘子。对 求偏导,并令其为0,得

将方程左则乘以 有

此式前两项为0,且 ,导出 ,因此式成为

由此, 是 的特征值, 是对应的特征向量,于是目标函数为

假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值,

按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。

主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。

对任意正整数 ,考虑正交线性变换

其中 是q的维向量, 是q*m维矩阵,令 的协方差矩阵为

则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。

这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。

以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。

第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作

k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比

通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。

k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作


计算公式如下:

其中, 是随机变量 的方差,即协方差矩阵 的对角元素。

在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1

设 为随机变量, 为第i个随机变量, ,令

其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。

在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。

使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作:

其中


样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。

传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法

给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析

给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分

对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解

式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到

定义一个新的 矩阵

的每一列均值为0,

即 等于X的协方差矩阵

主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。

假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现




详解主成分分析PCA
主成分分析( Principal components analysis),简称PCA,是最主要的数据降维方法之一。本文从PCA的思想开始,一步一步推导PCA。对于 , 。我们希望 从 维降到 维,同时希望信息损失最少。比如,从 维降到 :我们既可以降维到第一主成分轴,也可以降维到第二主成分轴。那么如何找到这这...

16种常用的数据分析方法-主成分分析
主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。 通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。 主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的...

主成分分析中累积贡献率的意义是什么?
主成分分析(PCA)是一种广泛使用的数据分析方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,能够反映出数据的主要特征。在PCA中,累积贡献率是一个重要的概念,它表示每个主成分所保留的原始数据方差的比例。累积贡献率的计算方法是,从第一个主成分开始,累计计算每个主成分的贡献率,...

pca主成分分析
主成分分析法: 英文全名 Principal Component Analysis 简称 PCA ,由名字就可以看出来,这是一个挑重点分析的方法。主成分分析 法是通过 恰当 的数学变换 ,使新变量—— 主成分成为原变量 的线性 组合 ,并选 取少数 几个在变差总信息量中 比例较 大的主成分来分析 事物 的一种方法 。 主成分在变差信息量中...

主成分分析(PCA)
主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系...

主成分分析的理解
主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主...

PCA(主成分分析)python实现
回顾了下PCA的步骤,并用python实现。深刻的发现当年学的特征值、特征向量好强大。PCA是一种无监督的学习方式,是一种很常用的降维方法。在数据信息损失最小的情况下,将数据的特征数量由n,通过映射到另一个空间的方式,变为k(k<n)。这里用一个2维的数据来说明PCA,选择2维的数据是因为2维的比较...

如何理解因子分析与主成分分析的区别?
3. 在实际操作中,如果KMO值在0.6左右,尽管可能仍可进行因子分析,但分析结果可能不够理想。例如,如果在进行因子分析时,得到的KMO值约为0.7,且没有低于0.65,这通常不会被视为不合格,但需视具体情况而定。4. 主成分分析(PCA)与因子分析有一定的联系,主成分分析是因子分析的一种特殊情况...

主成分分析的目的
5、用矩阵P对原始数据进行线性变换,得到新的数据矩阵Z,每一列就是一个主成分。6、根据主成分的方差解释比例、累积方差解释比例、碎石图等指标,确定最终保留的主成分个数。7、对保留的主成分进行命名、解释和应用,如权重计算、综合评价等。主成分分析的优缺点:优点:1、数据降维 PCA能够将高维数据...

代谢组学用色谱柱分离出的物质怎么检测其结构进行pca分析
对于通过色谱柱分离得到的代谢物进行结构检测和主成分分析(PCA)通常包括以下几个关键步骤:1.代谢物的结构鉴定:质谱(MS):将代谢物通过质谱仪进行分析,以获得其质量\/电荷比的信息,这有助于推断分子质量和可能的结构。核磁共振(NMR)光谱:对代谢物进行NMR光谱分析,获得其氢原子和碳原子的化学环境...

新城子区13094236092: PCA分析中,主成分PC1 PC2的值是怎么算出来的?求统计学大神,本人小白,望详细通俗点 -
职梅醋酸:[答案] Ok!小神来了! PCA的原理就是维数投影,通俗的说可以把3维或者更高维数投影到2维或者1维坐标上,你说的PC1和PC2,就是他的主元得分,三维的点投影到二维的位置就是主元得分,其次怎么确定投影坐标的维数呢,需要一个累计贡献率去...

新城子区13094236092: pca在分析化学中是什么意思 -
职梅醋酸:[答案] 好像没有这样的常数. 它是表示ca离子浓度的负对数,即pca=-lg[ca] 如果ca2+浓度=0.1mol/l,则pca=-lg0.1=1 如果ca2+浓度=0.01mol/l,则pca=-lg0.01=2

新城子区13094236092: 谁能用通俗易懂的语言讲解一下什么是PCA主成分分析 -
职梅醋酸: 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析. 在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息. 主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形.信息的大小通常用离差平方和或方差来衡量.

新城子区13094236092: 什么是主成分分析方法? -
职梅醋酸:[答案] 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标.在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换...

新城子区13094236092: 理化指标中的Pca是什么意思
职梅醋酸: 理化指标是指产品的物理性质、物理性能、化学成分、化学性质、化学性能等技术指标,也是产品的质量指标. 主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题.

新城子区13094236092: 什么是PCA -
职梅醋酸: . 主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题.计算主成分的目的是将高维数据投影到较低维空间.

新城子区13094236092: 什么是主成分分析方法 -
职梅醋酸: 什么是主成分分析方法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标. 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推.主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的.这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.

新城子区13094236092: 基因表达的主成分分析图怎么分析 -
职梅醋酸: 基因表达数据分析 主成分分析 ( Princ ipal Component Analysis , PCA ) 是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题.计算主成分的目的是将高维数据投影到较低维...

新城子区13094236092: 主元分析法是什么? -
职梅醋酸: 主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解. 主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的线性组合.从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关.其内容包括主元的定义和获取,以及通过主元的数据重构.

新城子区13094236092: PCA分析中,主成分PC1 PC2的值是怎么算出来的? -
职梅醋酸: Ok!小神来了! PCA的原理就是维数投影,通俗的说可以把3维或者更高维数投影到2维或者1维坐标上,你说的PC1和PC2,就是他的主元得分,三维的点投影到二维的位置就是主元得分,其次怎么确定投影坐标的维数呢,需要一个累计贡献率去做,比如保证百分之85的信息,再去确定其坐标维数,计算的话,先算协方差,然后确定特征向量和特征值,通过累计贡献率算维数,然后原有数据乘以特征矩阵得到得分值,具体的你可以看看文献内容.手打的不容易哈···

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网