pca主成分分析

作者&投稿:黎音 (若有异议请与网页底部的电邮联系)
~

主成分分析法: 英文全名 Principal Component Analysis 简称 PCA ,由名字就可以看出来,这是一个挑重点分析的方法。主成分分析 法是通过 恰当 的数学变换 ,使新变量—— 主成分成为原变量 的线性 组合 ,并选 取少数 几个在变差总信息量中 比例较 大的主成分来分析 事物 的一种方法 。 主成分在变差信息量中的比例越大 , 它在综合评价 中的作用就越大。

思想: 整体思想就是化繁为简,抓住问题关键,也就是降维思想。当然,既然是抓住关键,那么自然就是以牺牲精度为代价。

解决问题: 因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。 在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性。

人们希望在进行定量分析过程中,涉及的变量较少,得到的信息量较多。为了尽可能的减少冗余和噪音,一般情况可以从相关变量中选择一个,或者把几个相关变量综合为一个变量作为代表,用少数变量来代表所有变量。

原理: 因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量和相关矩阵的内部结构的关系研究 ,找出影响目标变量某一要素的几个综合指标,使综合指标为原来变量的线性拟合。 这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,使得我们在研究复杂目标变量评估问题时,容易抓住主要矛盾。

形象理解

比如,某学籍数据,有两列 M 和 F ,其中M 列的取值是如果学生为男性,则取值为 1 如果为女性,则取值为 0 。F 列,如果为男性则取值为 0 否则取值为一。 由这两种关系可以知道,这两列数据是强相关的。只要保留一列,就能够完全还原另外一列。  当然,不要局限于数据删除,还有数据转换,删除可以理解为在此方法中的一种方式。

当然,上述情况在真实数据中是不可能出现的。这里只是借此介绍一下这种思维。真实情况中, 我们需要考虑删除哪一列信息可以使得损失最小?或者是通过变换数据就能使得损失信息更小?又如何度量信息的丢失量?原始数据的处理降维有哪些步骤?

坐标示例:

我们来看下面这张图,这是一个椭圆的点阵。椭圆上面有一个长轴和一个短轴。现在我们要表示点阵的主要变化趋势,就可以以长短轴(或者平行于长短轴)构建新的坐标系。在极端的情况下,短轴变成了一个点,那么长轴就能代表这个点阵的趋势和特点。这样,一个二维数据,就变成了一维。

基础知识储备

内积与投影:

内积运算,将两个向量映射为一个实数。其几何意义就是 向量 A ,在向量 B 的投影长度。(下图是以二维向量为例,多维空间依然是如此。)

上式中,B 为单位向基 :

同样以上图 B为例,B向量为(3,2)其表示的其实为在 X 轴的投影值为3 ,在Y轴的投影值 为 2 。这其实加入了一个隐含信息,就是本坐标轴 分别是以 X Y轴为方向的单位向量。这里的 X Y 轴其实就是我们所提到的 基。只不过一般默认为 (1,0)和(0,1)

所以呢,要描述一组向量,首先是要确定一组基。然后求这个向量在这组基中的投影即可。对基的要求是线性无关,并不一定非要正交。但是因为正交基有较好的性质,所以一般情况我们都是用正交基。

基变换

上面我们了解了基的原理。如果同样把(3,2)放到新基里面描述,那就是把向量和新基相乘即可。

如果是在描述中,有多个基呢?那就是与基阵相乘。

如何实现降维

上面的思路,我们都清楚了。那么我们如何通过基变换来降维呢?这里我们来举个例子。假设我们有一个矩阵如下。

为了处理方面,我们现在把每个字段都减去字段平均值,那么就变成了如下所示

表示在坐标上如下图


那么,我们现在想用一维坐标来表示,而且要求尽可能的保留原来的信息,我们需要如何选择方向(基)呢?(二维降一维)

思路就是,希望投影后的值尽可能的分散,避免重合。

协方差:

在概率论与统计学中,协方差用于衡量两个随机变量的联合变化程度。而方差则是协方差的一种特殊情况,即变量与自身的协方差。

期望:在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。比如骰子的期望值为 1* 1/6 +2*1/6 + …+ 6*1/6 = 3.5

协方差公式为:

其中,E(X) = u E(Y) = v

协方差表示的是两个变量的总体的误差 ,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X 与Y 是统计独立的,那么二者之间的协方差就是0

流程和步骤

第一步:标准化

把输入数据集变量的范围标准化,以使它们中的每一个均可以大致成比例的分析。简单说,就是要把存在较大差异的数据转变为可比较的数据。比如把 0-100 的变量转化为 0-1 的变量。这一步一般可以通过减去平均值,再除以每个变量值的标准差来完成。标准差公式如下

那么常用的标准化指标变量公式可为

第二步:协方差矩阵计算

这一步的目的是:了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。

协方差矩阵是p×p对称矩阵(其中p是维数),其所有可能的初始变量与相关联的协方差作为条目。

好了,现在我们知道协方差矩阵只不过是一个表,汇总了所有可能配对的变量间相关性。下面就是计算协方差矩阵的特征向量和特征值,以筛选主要成分。

第三步:计算协方差矩阵的特征向量和特征值,用以识别主成分

特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义

主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。所以,10维数据会显示10个主成分,但是PCA试图在第一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。

例如,假设你有一个10维数据,你最终将得到的内容如下面的屏幕图所示,其中第一个主成分包含原始数据集的大部分信息,而最后一个主成分只包含其中的很少部分。因此,以这种方式组织信息,可以在不丢失太多信息的情况下减少维度,而这需要丢弃携带较少信息的成分。

在这里,方差和信息间的关系是,线所承载的方差越大,数据点沿着它的分散也越大,沿着线的散点越多,它所携带的信息也越多。简单地说,只要把主成分看作是提供最佳角度来观察和评估数据的新轴,这样观测结果之间的差异就会更明显。

协方差矩阵的特征向量实际上是方差最多的轴的方向(或最多的信息),我们称之为主成分。通过特征值的顺序对特征向量进行排序,从最高到最低,你就得到了按重要性排序的主成分。

第四步:特征向量

正如我们在上一步中所看到的,计算特征向量并按其特征值依降序排列,使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的,是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值),并与其他成分形成一个向量矩阵,我们称之为特征向量。

因此,特征向量只是一个矩阵,其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步,因为如果我们选择只保留n个特征向量(分量)中的p个,则最终数据集将只有p维。

第五步:沿主成分轴重新绘制数据

在前面的步骤中,除了标准化之外,你不需要更改任何数据,只需选择主成分,形成特征向量,但输入数据集时要始终与原始轴统一(即初始变量)。

这一步,也是最后一步,目标是使用协方差矩阵的特征向量去形成新特征向量,将数据从原始轴重新定位到由主成分轴中(因此称为主成分分析)。这可以通过将原始数据集的转置乘以特征向量的转置来完成。

优缺点

优点:化繁为简,降低了计算量。

缺点:一定程度上损失了精度。并且只能处理“线性问题”,这是一种线性降维技术、

总结

假设我们拿到了一份数据集,有m个样本,每个样本由n个特征(变量)来描述,那么我们可以按照以下的步骤进行降维:

1、将数据集中的每个样本作为列向量,按列排列构成一个n行m列的矩阵;

2、将矩阵的每一个行向量(每个变量)都减去该行向量的均值,从而使得新行向量的均值为0,得到新的数据集矩阵X;

3、求X的协方差矩阵,并求出协方差矩阵的特征值λ和单位特征向量e;

4、按照特征值从大到小的顺序,将单位特征向量排列成矩阵,得到转换矩阵P,并按PX计算出主成分矩阵;

5、用特征值计算方差贡献率和方差累计贡献率,取方差累计贡献率超过85%的前k个主成分,或者想降至特定的k维,直接取前k个主成分。




哪位大侠给详细解释一下CCA,CA, PCA分析的区别啊,在此谢过啦
CCA是典范对应分析,是分析物种组成与其生存环境关系的多元分析方法,并且要求物种组成的梯度变化较大(具体表现为物种的除趋势对应分析DCA的第一轴长大于3.0~4.0)。如果小于2,可以使用冗余分析RDA。PCA嘛,主成分分析嘛,它是基于线性模型的多元分析方法,不过只有物种组成。无法进行物种组成与环境因子关...

apca是什么意思?
APCA是指“Adaptive Principal Component Analysis”,即自适应主成分分析。它是一种在信号处理领域广泛应用的算法。在信号处理应用中,信号常常具有高维度的属性,而APCA能够将高维度的信号降维,从而提取出信号的本质特征。APCA算法在信号处理中具有多种优势。首先,它能够针对信号特征进行自适应调整,使得...

权重的确定方法有特尔斐法和
权重,指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。通常,判断权重的方法大致可以归为3类,第一类是主观赋权法,如德尔菲法、层次分析法等;第二类是客观赋权法,如主成分分析...

深度学习给生物学带来了哪些改变
诸如主成分分析(PCA),奇异值分解,独立分量分析或非负矩阵分解等方法是常见的前沿方法。然而,上述方法将数据转换成许多难以用生物学解释的组件。此外,这种降维方法基于基因表达谱提取特征而不管基因之间的相互作用。通路分析可以减少变量的数量,减少错误率并保留更多的生物相关信息。[25,26]深度学习在处理高维基质转录组...

氧化钙分析纯和氧化钙
也不妨碍实验要求;而色谱纯是指进行色谱分析时使用的标准试剂,在色谱条件下只出现指定化合物的峰,不出现杂质峰。而且对于化学纯,分析纯,优级纯,不同的产品要求往往也不一样。 分析纯(AR,红标签)(二级品): 主成分含量很高、纯度较高,干扰杂质很低,适用于工业分析及化学实验。

岩矿石主成分特征
与新鲜熔结凝灰岩相比,黄铁绢英岩化凝灰岩中SiO2、MnO、H2O+、CO2成分明显增高,而Al2O3、K2O、Na2O、CaO、MgO、FeO、Fe2O3成分明显降低,显示蚀变过程中Si、Mn元素明显带入,Al、K、Na、Ca、Mg、Fe元素带出的现象。另外,黄铁绢英岩化凝灰岩Fe2O3\/FeO比值(1.96)明显高于凝灰岩(1.48)...

成分分析中“烧失量”指的是什么?
烧失量是指坯料在烧成过程中所排出的结晶水,碳酸盐分解出的CO2,硫酸盐分解出的SO2,以及有机杂质被排除后物量的损失。烧失量是用来限制石膏和混合材中杂质的,以保证水泥质量。1、水泥:粉状水硬性无机胶凝材料。加水搅拌后成浆体,能在空气中硬化或者在水中更好的硬化,并能把砂、石等材料牢固地...

壳幔岩浆的混合作用———以湖南骑田岭花岗岩为例
对比暗色微粒包体与其寄主岩石的化学成分(表1-30),具有如下特点:一是包体成分比较分散,寄主岩石成分比较集中,且包体相对富K、Fe2+、Mg、Ca,与Debon(1991)比较了115对包体与寄主岩石的主元素所得出的结果一致;二是寄主岩石为正常岩浆演化趋势,而包体则不是,与Debon(1991)的岩浆混合结论吻合。本区暗色微粒包体的Fe...

石林彝族自治县13847346066: pca主成分分析 - 搜狗百科
汉砌锋珠: 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析. 在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息. 主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形.信息的大小通常用离差平方和或方差来衡量.

石林彝族自治县13847346066: PCA分析中,主成分PC1 PC2的值是怎么算出来的?求统计学大神,本人小白,望详细通俗点 -
汉砌锋珠:[答案] Ok!小神来了! PCA的原理就是维数投影,通俗的说可以把3维或者更高维数投影到2维或者1维坐标上,你说的PC1和PC2,就是他的主元得分,三维的点投影到二维的位置就是主元得分,其次怎么确定投影坐标的维数呢,需要一个累计贡献率去...

石林彝族自治县13847346066: 什么是PCA -
汉砌锋珠: . 主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题.计算主成分的目的是将高维数据投影到较低维空间.

石林彝族自治县13847346066: 什么是主成分分析方法 -
汉砌锋珠: 什么是主成分分析方法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标. 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推.主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的.这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.

石林彝族自治县13847346066: pca主成分分析第一主成分怎么知道什么成分 -
汉砌锋珠: 成分分析和因子分析有十大区别,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),且各个主成分之间互不相关,使得主成: 1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,即每个主成分都是原始变量的线性组合

石林彝族自治县13847346066: 什么是主成分分析方法? -
汉砌锋珠:[答案] 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标.在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换...

石林彝族自治县13847346066: 基因表达的主成分分析图怎么分析 -
汉砌锋珠: 基因表达数据分析 主成分分析 ( Princ ipal Component Analysis , PCA ) 是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题.计算主成分的目的是将高维数据投影到较低维...

石林彝族自治县13847346066: 主元分析法是什么? -
汉砌锋珠: 主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解. 主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的线性组合.从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关.其内容包括主元的定义和获取,以及通过主元的数据重构.

石林彝族自治县13847346066: 理化指标中的Pca是什么意思 -
汉砌锋珠: 理化指标是指产品的物理性质、物理性能、化学成分、化学性质、化学性能等技术指标,也是产品的质量指标.主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网