16种常用的数据分析方法-主成分分析

作者&投稿:征曼 (若有异议请与网页底部的电邮联系)
~

主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。


通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。 


主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。


主成分分析由卡尔•皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。


主成分的目的: 


(1)变量的降维 
(2)主成分的解释(在主成分有意义的情况下)


主成分分析法从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。



如上图所示,我们将样本到红色向量的距离称作是投影误差(Projection Error)。以二维投影到一维为例,PCA 就是要找寻一条直线,使得各个特征的投影误差足够小,这样才能尽可能的保留原特征具有的信息。因为PCA仅保留了特征的主成分,所以PCA是一种有损的压缩方式.


PCA分析的一般步骤


1.根据研究问题选取初始分析变量


2.根据初始变量特性判断由协方差阵求主成分还是由相关矩阵求主成分;


3.求协方差阵或相关阵的特征值与相应标准特征向量;


4.判断是否存在明显的多重共线性,若存在,则回到第(1)步;


5.得到主成分的表达式并确定主成分个数,选取主成分;


6.结合主成分对研究问题进行分析并深入研究。


PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。


主成分分析法优缺点


优点

↘可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。


↘可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。


↘主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。


缺点

↘在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。


↘主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。


↘当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。


主成分分析案例


某公司经理拟招聘一名员工,要求其具有较高的工作积极性、自主性、热情和责任感。为此,该经理专门设计了一个测试问卷,配有25项相关问题,拟从315位应聘者中寻找出最合适的候选人。


在这25项相关问题中:


↘Qu3-Qu8、Qu12、Qu13测量的是工作积极性


↘Qu2、Qu14-Qu19测量工作自主性


↘Qu20-Qu25测量的是工作热情


↘Qu1、Qu9-Qu11测量工作责任感


每一个问题都有非常同意“Agree”、同意 “Agree Some”、不确定“Undecided”、不同意 “Disagree Some”和 非常不同意 “Disagree”五个等级。


该经理想根据这25项问题判断应聘者在这四个方面的能力,现收集了应聘者的问卷信息,经汇总整理后部分数据如下:



分析者希望将多个变量归纳为某几项信息进行分析,即降低数据结果的维度。针对这种情况,可以进行主成分提取,但需要先满足2项假设:


↘假设1:观测变量是连续变量或有序分类变量,如本研究中的测量变量都是有序分类变量。


↘假设2:变量之间存在线性相关关系。


SPSS操作

SPSS操作


(1) 在主页面点击Analyze→Dimension Reduction →Factor



(2) 将变量Qu1-Qu25放入Variables栏



(3) 点击Deive,点选Statistics栏的Initial solution选项,并点选Correlation Matrix栏的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image选项



(4) 点击Continue→Extraction,点击Display栏中的Scree plot选项



(5) 点击Continue→Rotation,点选Method栏的Varimax选项,并点选Display栏的Rotated solution和Loading plot(s)选项



(6) 点击Continue→Scores,点击Save as variables,激活Method栏后点击Regression选项



(7) 点击Continue→Options,点击 Sorted by size和Suppress small coefficients选项,在Absolute value below栏内输入“.3”点击Continue→OK




经上述操作,SPSS输出相关矩阵表如下:



该表主要用于判断各变量之间的线性相关关系,从而决定变量的取舍,即如果某一个变量与同一分组中其他变量之间的关联性不强,我们就认为该变量与其他变量测量的内容不同,在主成分提取中不应该纳入该变量。一般来说,如果相关系数大于等于0.3,我们就认为变量之间存在较好的线性相关性。


从本研究的结果来看,在分别对应聘者工作积极性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作热情(Q20-25)和工作责任感(Q1,Q9-11)的测量中,每组变量之间的相关系数均大于0.3,说明各组变量之间具有线性相关关系,提示满足假设2。


KMO检验对数据结构的总体分析


KMO检验主要用于主成分提取的数据情况。KMO检验系数分布在0到1之间,如果系数值大于0.6,则认为样本符合数据结构合理的要求。


部分学者认为,只有当KMO检验系数值大于0.8时,主成分分析的结果才具有较好的实用性,具体系数对应关系如下:



SPSS输出本研究结果如下:



本研究的KMO检验系数为0.833,根据系数对应关系表,我们认为本研究数据结构很好(meritorious),具有相关关系,满足假设2。



KMO检验对各变量的单独分析



SPSS输出各变量的KMO检验结果如下:



整理后各题KMO值:



KMO检验对单个变量的分析结果也在0到1之间分布,如果系数大于0.5,则认为单个变量满足要求;如果系数大于0.8,则认为单个变量结果很好。


分析结论中,任一变量的KMO检验结果均大于0.7,即各变量结果一般,但满足假设2。


Bartlett's检验

Bartlett's检

Bartlett's检验的零假设是研究数据之间的相关矩阵是一个完美矩阵,即所有对角线上的系数为1,非对角线上的系数均为0。


在完美矩阵情况下,各变量之间没有相关关系,即不能将多个变量简化为少数的成分,没有进行主成分提取的必要。因此,我们希望拒绝Bartlett's检验的零假设。


SPSS输出结果如下:



Bartlett's检验的P值小于0.001,拒绝零假设,即认为研究数据可以进行主成分提取,满足假设2。


结果解释


对主成分结果的分析主要从公因子方差(communalities)、提取主成分和强制提取主成分三个方面进行。


公因子方差结果


SPSS输出公因子方差结果如下:



研究中有多少个变量数据结果就会输出多少个成分,本研究中共有25个变量,就会对应产生25个成分。


“Extraction”栏提示当只保留选中的成分时,变量变异被解释的程度。


提取主成分


研究中有多少个变量,主成分提取就会产生多少个主成分。我们通过选取主成分对数据进行降维,但同时也要注意尽可能多地包含对数据变异的解释。


一般来说,结果输出的第一主成分包含最多的数据变异,第二主成分次之,之后的主成分包含的变异程度依次递减。SPSS输出结果如下:



本研究中共有25个变量,那总特征值(eigenvalues of variance)是25,即每个变量自身的特征值为1。


Total栏提示的是各主成分对数据变异的解释程度。


以第一主成分为例,其特征值为6.730,占总体变异的6.730/25×100 = 26.919% (% of Variance栏)。同理,第二主成分的特征值为3.342,占总体变异的13.369%,以此类推。


一般来说,如果某一项主成分的特征值小于1,那么我们就认为该主成分对数据变异的解释程度比单个变量小,应该剔除。本研究结果如下:



第五主成分的特征值为1.049,大于1;而第六主成分的特征值为0.951,小于1,即应该保留前五位的主成分,剔除剩余部分。



结论


本研究采用主成分分析,通过25项问题调查315位应聘者的工作能力。


研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3),数据结构合理(KMO检验系数为0.833,单个变量的KMO检验系数均大于0.7,Bartlett's检验结果为P<0.001),提示研究数据可以进行主成分提取。< span="">


主成分提取结果:研究提取前四位主成分。提取后的主成分累计解释59.9%的数据变异,分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感(如下图)








数据差异性分析的思路和方法有哪些?
6.非参数检验:这是一种不依赖于总体分布的假设检验方法,适用于数据不符合正态分布的情况。常用的非参数检验方法有Wilcoxon符号秩检验、Mann-WhitneyU检验等。7.时间序列分析:这是一种研究时间序列数据的方法,用于预测未来的趋势和周期。常用的时间序列分析方法有移动平均法、指数平滑法、ARIMA模型等。

在个人课题研究中可以采用哪些数据分析工具?
在个人课题研究中,数据分析工具的选择取决于研究的目的、数据类型和分析方法。以下是一些常用的数据分析工具:1.Excel:Excel是最常用的数据分析工具之一,适用于处理结构化数据,如数值、日期和文本。它可以进行基本的统计分析,如描述性统计、回归分析和方差分析等。2.SPSS:SPSS是一种专业的统计分析软件...

有哪些好用的数据分析工具推荐?
以下是一些常用的数据分析工具推荐:1.Excel:作为最常见和基础的数据分析工具,Excel提供了丰富的功能和灵活性,可以进行数据清洗、筛选、计算和可视化等操作。2.Python:Python是一种通用编程语言,拥有强大的数据处理和分析库,如Pandas、NumPy和Matplotlib。它提供了广泛的数据处理和可视化功能,适用于各种...

数据分析有什么思路?
02) 矩阵分析比如公司有价值观和能力的考核,那么可以把考核结果做出矩阵图,能力强价值匹配的员工、能力强价值不匹配的员工、能力弱价值匹配的员工、能力弱价值不匹配的员工各占多少比例,从而发现公司的人才健康度。03) 漏斗分析比如记录招聘数据,投递简历、通过初筛、通过一面、通过二面、通过终面、接...

数据分析中常用的图形有哪几种
数据分析中常用的图形如下:一、占比关系图表 1、饼图:饼图是一个划分为几个扇形的圆形统计图表,通常用来展现数据的分类和占比情况。比如想要突出表示某个部分在整体中所占比例,尤其该部分所占比例达到总体的25%或50%时。2、环形图:展现数据的分类和占比情况,相比饼图,环形图的可读性更高,...

数据分析的方法有哪些?
3、常用方法: 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。 ①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射...

大数据开发常见的9种数据分析?
6.统计描述 统计描述是根据数据的特点,用一定的统计指标和指标体系,表明数据所反馈的信息,是对数据分析的基础处理工作,主要方法包括:平均指标和变异指标的计算、资料分布形态的图形表现等。7.链接预测 链接预测是一种预测数据之间本应存有的关系的一种方法,链接预测可分为基于节点属性的预测和基于网络...

大数据分析中,有哪些常见的大数据分析模型
6. 用户模型建立修正 同时,还可以将收集到的用户信息映射成为用户的属性或用户的行为信息,并存储起来形成用户档案;实时关注自身数据的波动,及时做出战略性调整。 二、事件模型 事件模型是用户行为数据分析的第一步,也是分析的核心和基础,它背后的数据结构、采集时机以及对事件的管理是事件模型中的三大要素。 什么是事件...

数据分析中有哪些常见的数据模型
要进行一次完整的数据分析,首先要明确数据分析思路,如从那几个方面开展数据分析,各方面都包含什么内容或指标。是分析框架,给出分析工作的宏观框架,根据框架中包含的内容,再运用具体的分析方法进行分析。数据分析方法论的作用:理顺分析思路,确保数据分析结构体系化 把问题分解成相关联的部分,并显示他们...

产品经理9种数据分析方法
现使用个体行为序列分析,寻找到反复使用某个功能且停留事件较长的用户,筛选后将1000名用户分配给销售,大大提交了合作转化率。以上就是产品在日常数据分析中,常用的9种分析方式。我是天王寺一哥,一个产品界的小学生,期待与大家多沟通,多交流。 已赞过 已踩过< 你对这个回答的评价是? 评论 收起 为...

盖州市15619269814: 数据分析的方法有哪些? -
顾侍小儿: 总的分两种: 1 列表法 将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法.表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和...

盖州市15619269814: 数据分析方法有哪些 -
顾侍小儿: 代数方程、线性代数方程组、微分方程的数值解法,函数的数值逼近问题,矩阵特征值的求法,最优化计算问题,概率统计计算问题等等,还包括解的存在性、唯一性、收敛性和误差分析等理论问题

盖州市15619269814: 主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点. -
顾侍小儿:[答案] 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多...

盖州市15619269814: 什么是主成分分析方法? -
顾侍小儿:[答案] 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标.在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换...

盖州市15619269814: 什么是主成分分析方法 -
顾侍小儿: 什么是主成分分析方法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标. 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推.主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的.这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.

盖州市15619269814: 主成分分析是一种什么方法?主成分分析是一种什么方法?
顾侍小儿: 主成分分析:是把几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关的一种数学降维的方法

盖州市15619269814: 工程常用的数据分析有哪些方法 -
顾侍小儿: 分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,常用方法有: 老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图; 新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图;

盖州市15619269814: 主成分分析法和聚类分析法的区别 -
顾侍小儿: 主成分分析法在过程中产生新变量,而聚类分析法在过程中没有产生新变量. 主成分分析法:一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列. 聚类分析法:理想的多变量统计技术,主要有分层聚类法和迭代聚类法.是研究分类的一种多元统计方法.

盖州市15619269814: 主成份分析和因子分析的区别 -
顾侍小儿: 因子分析与主成分分析的异同点: 都对原始数据进行标准化处理; 都消除了原始指标的相关性对综合评价所造成的信息重复的影响; 构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,减少了评价工作量 公共因子比主成分更容易被解释; 因子分析的评价结果没有主成分分析准确; 因子分析比主成分分析的计算工作量大主成分分析仅仅是变量变换,而因子分析需要构造因子模型. 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量.

盖州市15619269814: 主成分分析在数学建模中的应用及详细的步骤 -
顾侍小儿: 分析步骤: 1. 数据标准化;求相关系数矩阵; 2. 一系列正交变换,使非对角线上的数置0,加到主对角上; 3. 得特征根系(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列; 4. 求各个特征根对应的特征向量; 5. ...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网