第11章 降维

作者&投稿:有居 (若有异议请与网页底部的电邮联系)
~

去掉数据集中关联性不大和冗余的数据,确保不出现过度适应的前提下降低计算的成本,需要对特征进行无损规约,数学上叫降维。广泛用于模式识别、文本检索以及机器学习领域,主要分为两类,特征提取和特征筛选,前者是高维数据投影到低维空间,后者是特征子集代替原始特征集,包括特征分级和特征筛选,分级是找到优化后的特征子集。
特征提取可以分成线性抽取和非线性抽取两种方法,前者是试图找到一个仿射空间能够最好的说明数据分布的变化,后者对高维非线性曲线平面分布的数据非常有效。
线性特征的抽取方法:

首先设定一些标准,然后挑选出满足标准的特征。

算法首先调用一个权重函数得到每个特征的权重值,权重评价指标是平均精确度下降 importance.type = 1 ,除了上面用的随机森林,还可以使用 chi.squared, information.gain 。
然后获取优化的特征子集,首先5折交叉验证评估特征子集的重要性,爬山搜索算法从原始特征集中选出优化的特征子集,也可以选择其他算法,比如 forward.search 。还可以使用caret包进行特征筛选,据说这个包是个宝呀,包罗万象。

主成分分析是一种应用非常广泛的线性降维方法,适合数据集包含非常多的特征,并且特征间彼此冗余(相关的情况)。通过将特征集缩减成一小部分能代表原始特征集最主要变化的主要特征分量,实现高维数据到低维数据空间的映射。

特征选择过程中会去掉一些彼此关联但有价值的特征,需要在特征制取过程中考虑将这些特征综合到单特征中,PCA采用正交变换将彼此有关联的特征转化为主成分,以便我们确定方差趋势。
算法主要包括以下步骤:1)找到平均向量的数据点;2)计算
协方差矩阵;3)计算特征向量;4)对特征向量排序并选择前k个特征向量;5)构建特征向量矩阵;最后,将数据样本转换成新的子集。
拓展
princomp 是另一个高不成分分析函数,与上面的 prcomp 采用奇异值分解不同,采用相关矩阵或协方差矩阵的特征值计算方法,一般更习惯用后者。

以上两个函数均来自stats包,还可以使用psych包中的principal函数进行:

Kaiser方法、scree(碎石测试)和依据挑选规则使用解释变量比例都可以。碎石测试的主要目的是将主成分结果以碎石图方式表达,从图中找到引起曲线斜率变化最快的因素。

主成分为2时,斜率变化最快。也可以使用nfactors以并行分析非图形方式作Cattell碎石来测试。

biplot绘制数据与原始特征在前两个主成分上的投影图

biplot绘制数据及原始特征在前两个主成分上的投影,农业高,教育和检查低的省份在PC1上得分高;婴儿死亡率高,农业低的省份在主成分PC2上得分较高。

多维尺度分析通过图形方式展示多个对象之间的相似或相异程度距离),多维是指映射到一维、二维或多维空间表达CF全家人相对距离,一般使用一或二维空间。

分成计量和非计量两类,前者是主要考虑如何保证降维后各对象之间的距离尽可能接近它们在原始空间的距离,后者则假设两个空间中对象的距离排名已知,而且变换后排名不变。

可以通过将投影维度绘制在一个散点图中比较MDS和PCA的差异,如果MDS采用欧氏距离,投影维度将与PCA完全一致。

奇异值分解是矩阵分解的一种形式,可以将一个矩阵分解为两个正交矩阵和一个对角矩阵,原始矩阵可由这三个矩阵相乘得到。可以帮助去掉那些从线性代数角度观察存在线性相关冗余的矩阵,可以应用在特征筛选,图像处理和聚类等。

SVD是一类分解实数或复数矩阵的常见方法,PCA可以被看成SVD的一种特例:

两个矩阵基本相同。

[图片上传失败...(image-be0ae8-1639570485003)]
图像压缩领域应用最为广泛的标准测试图像,花花公子当年的模特图呀!

不知为啥,读什么图片都是负片呢?先继续:

ISOMAP属于流形学习方法,支持线性空间到非线性数据结构的转换,与MDS类似,它也能够以图形方式展现对象之间的相似性或相异性(距离),不过,由于数据采用非线性结构表示,以几何距离代替MDS中有欧氏距离。

ISOMAP是一种等距映射非线性降维方法,如果将计量MDS方法中数据点间成对的欧氏距离替换成邻接图间的测地距离,就可以将ISOMAP当做计量MDS方法的扩展。
算法分为4步:确定邻近点,构建邻接图,计算最短路径和MDS分析找到数据间的低维嵌入。

扩展
可以将RnavGraph包将图形作为数据浏览的基础方式来实现高维数据的可视化。

LLE算法是PCA算法的扩展,通过嵌入高维空间内的流形映射到低维空间来实现数据压缩。ISOMAP是全局性非线性降维,LLE主要是局部母性降维算法,假设每个数据点可以由k个邻近点的母性组合构成,映射后能保持原来的数据性质。

LLE是一种非线性降维算法,基于它我们可以得到高维数据在低维空间保持原有数据邻近嵌入关系的映射。算法主要分成三步:计算每个点的k个邻近,然后计算每个邻近点的权值,使得每个点都能最优地由其邻近点组合重构,即残差和最小。

扩展
还可以选择RDRTollbox包实现非线性降维,支持ISOMAP和LLE算法。




杂多县13326358035: 新约圣经马太福音第十一章描写什么? -
佛功瑞复: 新约圣经马太福音第十一章描写: 【1】施洗约翰(1-19节)施洗约翰在监里打发门徒去问耶稣,「那将要来的是你么?还是我们等候别人呢?」这表示约翰是怀疑呢?还是抱怨,或以此激励,为的是让耶稣快来救他?耶稣说:「凡不因我跌...

杂多县13326358035: 圣经士师记11章主要讲的是什么 -
佛功瑞复: 《士师记》十一章主要讲了以色列的士师之一 耶弗他. 耶弗他——基列的儿子,为一个妓女所生,在他之前,有两个相对来说不很出名的士师:陀拉和睚珥.他们作以色列的士师加起来长达半个世纪.这以后,以色列又违背耶和华行恶事.他们事奉巴力和亚斯他录;以及亚兰、西顿、摩押、亚扪和非利士人的神.耶弗他因是妓女所生,被赶出家门;但他是个勇士.所以,当亚扪人攻打以色列时,长老们去请他回来,并答应他作他们的元帅和领袖.于是耶弗他与长老们一同回去,结果耶弗他打败亚扪人,连克二十座城,制服了亚扪人.耶弗他作士师六年.

杂多县13326358035: dnf第十一章维护时间什么时候到今天2月18日
佛功瑞复: 2月18日8点全区维护停机公告 2011-02-17 18:49:34 字体:【大 中 小】 尊敬的DNF用户:为了给各位勇士带来更优质的游戏体验,优化更新安全组件,我们将于2月18日(周五)8:00-12:00对所有大区进行停机维护.整个维护过程预计需要4...

杂多县13326358035: 钢铁是怎样炼成的第十一章句式赏析 -
佛功瑞复: 第十一章4为了供应木材与粮食,要在三个月内修一条铁路.于是保尔和共青团员被调去修铁路.5筑路队的工作条件艰苦卓绝,土匪的骚扰、疾病四散、饥饿都在不住地威胁着修路队.寒冬,人们仍然在北国的冰天雪地中拼命.工人发誓要按时完成铁路.6一辆没了燃料的列车停在工地附近,保尔在车上遇见了结了婚的冬妮娅.7铁路终于如期修通了,朱赫来赞叹道“钢铁就是这样炼成的!”.他还送给保尔一把枪.但不久后,保尔病倒了.

杂多县13326358035: 《老子道德经》第十一章 -
佛功瑞复: 三十辐 共一毂 当其无有车之用车轮要三十支径木 插入中间的轴心 这个车轮才有作用埏埴以为器 当其无有器之用制造盛物的器具 要留个中空的地方 这些器具才能盛物凿户牖以为室 当其无有室之用建造房屋 开凿门窗 要留个空间才能住人故有之以为利 无之以为用所以说 有形的东西是给人方便使用的 无形的空间 才是活动的地方 如天与地之间是中空的 才能让万物来去无阻 通行无碍 如天与地之间 没有这个中空的地方 万物就没有活动与生化的余地了

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网