组间差异检验，终于有人讲清楚了!

作者&投稿：歹狠（若有异议请与网页底部的电邮联系）

什么是组间差异检验？就是组间的差异分析以及显著性检验，应用统计学上的假设检验方法，检验组间是否有差异及其差异程度。坦率地讲，所有的差异检验都基于一个假设：组间没有差异，变量之间没有关系（即原假设，）。上海交大王成老师也说方差分析其实研究的就是不同水平下是否有差异化的假设检验问题。而假设检验就是先对总体参数提出某种假设，然后利用样本信息判断假设是否成立的过程。

所以，本着负责的态度，在本文的开始我们有必要回顾一下《概率论与数理统计》中关于假设检验的基本概念。

其中参数这个概念最值得我们好好体会，因为今天的主角 组间差异检验 ，在这个水平上可以分为两类：参数检验和非参数检验。那么什么叫参数检验和非参数检验，它们之间的区别是什么呢。要理解前面的问题，首先需要明白统计推断的概念。

统计推断是研究如何利用样本数据来推断总体特征的统计学方法，包括参数估计和假设检验两大类。总体的参数一般是未知的，通常可以用样本统计量来对总体的参数进行估计，例如可以用样本均值对总体均值进行点估计，利用样本均值的分布对总体均值进行区间估计，这些都称为参数估计。

参数检验和非参数检验的区别：

那么什么时候用参数检验，什么时候用非参数检验呢？非参数检验一般不直接用样本观察值作分析，统计量的计算基于原始数据在整个样本中的秩次，丢弃了观察值的具体数值，因此凡适合参数检验的资料，应首选参数检验。但是不清楚是否合适参数检验的资料，则应采用非参数检验。

此处也许大家期待作者带我们温习一下假设检验的4 个步骤（提出假设；构造检验统计量；根据显著水平，确定临界值和拒绝域；做出检验决策），但是带有几分傲气的作者绝情地不为我们没有学好的课程补刀，补课的事情让我们自己去做，他转而讲自己认为重要的知识点：抽样分布。

知道我们的研究对象整体处于什么状态，是一件非常重要的事情。三大抽样分布（ -分布、分布、 -分布）和正态分布共同构成了现代数理统计学的基础，其中，正态分布和 -分布是关于均值的分布；分布、 -分布是关于方差的分布。很多同学做统计做了很多年，却不知道为什么几乎每个方差分析都有值。可见，统计学拼到最后拼的都是基础。

离开分布，假设检验无从谈起；离开假设检验，差异分析毫无根基。同样地，出于人道主义，我们来重温一下抽样分布。

设 X 1 ,X 2 ,......X n 相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ 2 =X 1 2 +X 2 2 +......+X n 2 所服从的分布为自由度为 n 的分布

设服从标准正态分布N(0,1)，服从自由度为n的分布，且、相互独立，则称变量所服从的分布为自由度为n的 -分布

设服从自由度为的分布, 服从自由度为的分布，且、相互独立，则称变量所服从的分布为分布，其中第一自由度为 ,第二自由度为。一般滴，这里F就是均方之比。

不管是参数检验还是非参数检验，都要基于特定的分布来做假设检验。当总体分布已知时，例如总体服从正态分布，我们可以根据给定的显著性水平（通常为0.01 或0.05）查表获得临界值。当总体分布未知时，可以先用Permutation test 构造经验分布，再根据显著性水平获得临界值。

传统的统计量检验的方法是在检验之前确定显著性水平，也就意味着事先确定了临界值和拒绝域。这样，不论检验统计量的值是大还是小，只要它的值落入拒绝域就拒绝原假设，否则就不拒绝原假设。这种给定显著性水平的方法，无法给出观测数据与原假设之间不一致程度的精确度量。要测量出样本观测数据与原假设中假设值的偏离程度，则需要计算pvalue值。pvalue 值，也称为观测到的显著性水平，它表示为如果原假设正确时得到实际观测样本结果的概率。pvalue 值越小，说明实际观测到的数据与之间的不一致的程度就越大，检验的结果就越显著。

变量较多，判断组间差异时需要多重检验的情况在宏基因组扩增子差异分析中十分常见。这种情况下，基于单次比较的检验标准将变得过于宽松，使得阳性结果中的错误率（FDR 值FalseDiscovery Rate）非常大（已经大到令人不可忍受的地步）。怎么办呢？最好的办法就提高判断的标准（p value），单次判断的犯错概率就会下降，总体犯错的概率也将下降。在多重检验中提高判断标准的方法，我们就称之为 多重检验校正 。从1979 年以来，统计学家提出了多种多重检验校正的方法。相应地，对p值校正之后的叫法也不一样，比如，FDR、Q value、Adjusted p-value，这个大家知道在多重检验时需要校正就行了，具体的用法作者有时间再教大家（这个作者真是皮啊~~）。

关于宏基因组或扩增子组间差异检验的理论知识就到这了，作者认为知道以上知识点是必要的，也告诉我们，今天我们讨论的是统计推断。换句话说，找差异，我们是专业的。

人民为了找差异，这才学会做统计。为了说明组间的数据差异很大，人民开发了许多沿用至今的图画，下面我们就一起来揭开这一幅幅有差异的画面。

在数据科学家的工具箱里，这是一款经久不衰、常用常新的瑞士军刀。几乎只要想到差异分析，就会想到箱线图。也开发出类箱线图的工具比如小提琴图（小提琴图Violin plot）

一般有进化树和层次聚类树，如果你想表达对象之间的距离差异，最直观的的也许就是树状图了。为了用图表示亲缘关系，把分类单位摆在图上树枝顶部，根据分枝可以表示其相互关系，具有二次元和三次元。在数量分类学上用于表型分类的树状图，称为表型树状图（phenogram），掺入系统的推论的称为系统树状图（cladogram）以资区别。

贴心的作者小朋友把实现这些图形的常见R包列给大家，安装后就能用啦

这里说的基于物种言下之意是通过统计分析，可以有针对性的找出分组间丰度变化差异显著的物种，并得到差异物种在不同分组间的富集情况，同时，可以比较组内差异和组间差异的大小，判断不同分组间的群落结构差异是否具有显著意义。也就是说可以找出区别组间的一个biomarker。

这类检验一般只输出p值，它的目的很简单，就是检验比较组之间的相似性距离是否有差异。常用的分析方法有卡方检验、Student t检验、Wilcoxon秩和检验等等。

如果只有两个样本比较，适合用卡方检验 ，不过说实在的，检验出来的结果没什么可靠性，因为现阶段16s研究不做重复实在“难以服众”了。先不说价格便宜，做重复压根没有难度，就是从生物学、统计学角度考虑，也需要做重复。

如果是两组样本（至少3重复），可以试一下Student t，Welch‘st以及Wilcoxon秩和检验 。Student t检验需要样本符合正态分布，而且方差对齐。当组间样本数不同，方差也不对齐的时候，Welch’s t检验是很好的选择。

Wilcoxon秩和检验又叫Mann-Whitney U 检验，是基于变量排名的一种统计方法，不需要样本符合正态分布，也不需要样本方差对齐，是更为广泛的检验方法，但同时也由于检验太宽松，容易带来很多假阳性。

如果是多组样本比较，可以选择one way ANOVA、TURKEY以及Kruskal-Wallis H检验等方法 。one way ANOVA和TURKEY其实都是基于方差分析，只不过后者带有后验，可以知道两个分组对整体差异的贡献度。

Kruskal-Wallis H检验本质也是一种秩和检验，与前两者的区别在于，它不需要样本数和方差的对齐，应用更为广泛。Kruskal-Wallis检验又被称之为单因素非参数方差分析。

毫不客气地讲，一般秩和检验或置换检验属于非参数检验。在这类差异检验中，有两种集成方法特别值得我们注意：LEfSe 、metastats。

得到结果展示如下，差异体现在柱形图和树状图上。LDA值分布柱状图中展示了LDA Score大于设定值（默认设置为4）的物种，即组间具有统计学差异的Biomarker。展示了不同组中丰度差异显著的物种，柱状图的长度代表差异物种的影响大小（即为 LDA Score）。

在进化分支图中，由内至外辐射的圆圈代表了由门至属（或种）的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类，小圆圈直径大小与相对丰度大小呈正比。着色原则：无显著差异的物种统一着色为黄色，差异物种Biomarker跟随组进行着色，红色节点表示在红色组别中起到重要作用的微生物类群，绿色节点表示在绿色组别中起到重要作用的微生物类群，若图中某一组缺失，则表明此组中并无差异显著的物种，故此组缺失。图中英文字母表示的物种名称在右侧图例中进行展示。

metastats结果给出差异物种的p值和q值（表中的数据是假的！）

所谓基于距离也就是检验的是群落差异而不是某个物种。上面所提及的检验方法，其实都只能告诉大家，这些分组是否有显著差异（可以简单理解为有无）。那如果想同时知道这些差异的程度（可以简单理解为多少）呢，那需要Anosim，Adonis以及MRPP等检验方法。这些方法不但可以输出检验显著性结果（p值），还有程度结果（R值），R值可以用来判断分组贡献度大小。Anosim、Adonis这些可用于多元统计检验的模型就非常适合了。要值得注意的是，Anosim本质是基于排名的算法，其实与NMDS的配合效果最好。如果是PCoA分析，建议配合使用Adonis检验结果。

Anosim（Analysis of similarities）是一种非参数检验方法。它首先通过变量计算样本间关系（或者说相似性），然后计算关系排名，最后通过排名进行置换检验判断组间差异是否显著不同于组内差异。这个检验有两个重要的数值，一个是p值，可以判断这种组间与组内的比较是否显著；一个是R值，可以得出组间与组内比较的差异程度。Anosim用来检验组间的差异是否显著大于组内差异，从而判断分组是否有意义，Anosim分析使用R vegan包anosim函数,一般基于Bray-Curtis距离值的秩次进行组间差异显著行检验，详细计算过程可查看 Anosim 。

该方法主要有两个数值结果：一个是R，用于不同组间否存在差异；一个是P，用于说明是否存在显著差异。以下分别对两个数值进行说明：
R值的计算公式如下：

rB：组间差异性秩的平均值（mean rank of between group dissimilarities）
rW：组内差异性秩的平均值（mean rank of within group dissimilarities）
n：总样本个数（the number of samples）

R的范围为[-1，1]
R>0说明组间差异大于组内差异，R<0组间差异小于组内差异。
R只是组间是否有差异的数值表示，并不提供显著性说明。

P值则说明不同组间差异是否显著，该P值通过置换检验（Permutation Test）获得。
置换检验大致原理：（假设原始分组为实验组和对照组）

1、对所有样本进行随机分组，即实验组和对照组。
2、计算当前分组时的R值，即为Ri。
3、重复当前操作N次，对所有Ri及原始R从大到小排序，R所处的位置除以N即为置换检验P值。

ADONIS又称置换多因素方差分析（permutational MANOVA）或非参数多因素方差分析（nonparametric MANOVA），是一种基于Bray-Curtis距离的非参数多元方差分析方法。它与Anosim的用途其实差不多，也能够给出不同分组因素对样品差异的解释度（R值）与分组显著性（P值）。不同点是应用的检验模型不同，ADONIS本质是基于F统计量的方差分析，所以很多细节与上述方差分析类似。该方法可分析不同分组因素对样本差异的解释度，并使用置换检验对分组的统计学意义进行显著性分析。ADONIS分析使用R vegan包adonis函数进行分析，详细计算过程可 adonis

MRPP分析与Anosim类似，但是MRPP是基于Bray-Curtis的参数检验，用于分析组间微生物群落结构的差异是否显著，通常配合PCA、PCoA、NMDS等降维图使用，MRPP分析使用R vegan包mrpp函数,详细计算过程可查看 MRPP

分子方差分析法 (AMOVA)与ANOVA类似，是基于加权或非加权Unifrac距离矩阵，检验不同组间差异显著性的非参数分析方法。一般基于Unifrac距离，使用mothur软件amova函数进行组间差异分析，详细计算过程可查看 Amova

Mantel test，Mantel test 是对两个矩阵相关关系的检验，顾名思义，是一种检验。既然是检验就得有原假设，它的原假设是两个矩阵见没有相关关系。检验过程如下：两个矩阵都对应展开，变量两列，计算相关系数（理论上什么相关系数都可以计算，但常用pearson相关系数），然后其中一列或两列同时置换，再计算一个值，permutation 成千上万次，看实际的r值在所得r值分布中的位置，如果跟随机置换得到的结果站队较近，则不大相关，如果远远比随机由此得到显著性。详细计算过程可查看 Mantel test

作者实在太懒，坚持别人已经说过的话不愿再说，只要抄过来就好了，在文章的最后他把赵小胖的一段话原版搬了过来：

无论你从事何种领域的科学研究还是统计调查，显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。后来醉心于统计理论半载有余才摸到显著性检验的皮毛，也为显著性检验理论之精妙，品种之繁多，逻辑之严谨所折服。在此，特写下这篇博文，以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专业毕业，所持观点粗陋浅鄙，贻笑大方之处还望诸位业界前辈，领域翘楚不吝赐教。小可在此谢过诸位看官了。

参考：

相同款式的水龙头价格为啥差异巨大
带着问题，本网站记者走访了几家工厂和一些建材专卖店，通过专业技术人员的讲解和本站记者的亲手触摸和切口实验，终于了解了真相，事情原来是这样的，大家可以针对不同的情况一一检验随着原材料价格的上涨，特别是矿石的价格上涨，导致整个与金属有关的产品价格也在涨，水龙头也在此列，但本网站记者...

迈向成熟的一步作文(600字)
人既有差异,就说明了这个道理。人是社会的,最重要的就是有辩证的眼光。处理事情,形成了包容的心态...老师便拿来了PH试纸,它遇酸变红遇碱变蓝,准备作最后、也是一锤定音的检验。我屏息,凝视着那张试纸...同学之间互相是要好的朋友,但是在学习方面可是互不相让,明争暗夺,战火弥漫。我和同桌就展开了一场...

七夕的爱情语录49条
15、独处的确是一种检验，用它可以测出一个人灵魂的深度，测出一个人对自己真正的感受。一个连自己也不爱的人，我敢断定他对于别人也是不会有多少价值的，他不可能有高质量的社会交往。一切交往的质量都取决于交往者本身的质量。唯有在两个灵魂充实丰富的人，才可能有真正动人的爱情与友谊。16、长大...

医学检验个人年度总结
总结就是把一个时段的学习、工作或其完成情况进行一次全面系统的总结,它可以使我们更有效率,不如静下心来好好写写总结吧。总结你想好怎么写了吗?下面是我收集整理的医学检验个人年度总结,欢迎大家分享。医学检验个人年度总结1 光阴如梭,转眼间这一年即将步入尾声,回首过去,是为了更好地面向未来。党和国家注入了新...

终于可以对“暴力年检”说拜拜!来看看都有啥改变
作为车主而言，每年都有那么一段时间有些苦恼；那便是每年一度的车辆年检，可能对新车车主还算友好，“六年免检”政策让他们可以少去许多奔波，即便是针对新车的“两年一审”，目前多地已经支持网上办理，根本不用去车管所现场进行繁琐的流程检验。但是对于老车车主而言，“一年一检”亦或是“半年一检”的...

相近爱情经典语录(精选91句)
24、最在乎的人,总在误会与错过之间擦身。不能怪命运不公,是你没有交付出足够的信任,是你没有为爱情义无反顾的决心。 25、只有相互暴露了自己的缺点、...52、婚姻与爱情最大差异在于愿不愿意改变。愿意为了对方改变自己,是真爱,从头到尾都不想改变自己,充其量只是对方爱你。可妥协可退让,愿意尝试原本讨厌的,有...

达尔文捉来许多昆虫,进行比较,又在岛上认真观察,终于找到了答案。原来...
岛上经常刮大风，那些没有翅膀或翅膀残缺的昆虫，由于不会飞，不容易被风吹走。那些翅膀特别大的昆虫，因为顶得住大风，所以也能生存下来。而那些翅膀不够大的昆虫，由于容易被吹到海里去，便渐渐地消失了。自然选择

数学题过程
慢的马去150英里一天，240匹马走一天，慢马走112天就意味着缓慢的马和马出发前的距离为150×12 = 1800，然后开始马240马走了一天，但是当当马赶上的慢，慢马的马都跑这么慢减法马马速度240-150 = 90年，这是一天的马赶上的速度，马和马的速度慢于1800年，马1天之间的差异赶上90年代，所以1800...

如何利用万有引力定律发现星体?相对论如何弥补万有引力的不足?_百度...
人们在计算天王星轨道的时候，发现通过牛顿定律计算所得的数据与实际观测数据之间存在着偏差，偏差大概在2分左右，一度是60分。牛顿定律是经过时间检验的，应该没有错，而观测同样也不可能出错，那么问题在哪呢？一个大胆的假设出现了，那就是在天王星的外侧还存在着一颗行星，这颗行星的引力作用对天王星的...

请教各位大佬,实验室质量控制如何做,谁有范本啊(包括人员比对、实验室间...
临床检验室内质量控制数据实验室间比对近年来临床实验室均开展了常规检测项目的室内质量控制,但室内质量控制效果如何,长期以来没有找到一种精确的方法能对其进行全面评价。“室间质量评价”只能评价其不准确度,但还无法对实验室内的不精密度进行评价。现在我们终于能从“室内质量控制数据实验室间比对计划”中获取不准确...

全南县13981854872： 推断统计的差异检验方法是什么? - ？
诏通夫西： 推断统计包括总体参数估计和假设检验.差异检验是“假设检验”的一种,用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的方法.

全南县13981854872： 怎么用spss检验两组数据的差异 - ？
诏通夫西： 独立样本t检验 1.在进行独立样本T检验之前,要先对数据进行正态性检验.满足正态性才能进一步分析,不满足可以采用数据转化或非参数秩和检验; 2.在菜单栏上执行:分析-比较均数-独立样本t检验; 3.将要比较平均数的变量放到检验变量,将分组变量放到分组变量,点击定义组; 4.打开的对话框中,设置组1和组2的值分别是分组类别,然后点击继续.

全南县13981854872： 如何检验两组数据是否具有显著性差异? - ？
诏通夫西： 变量说明: 在确定分析方法前,我们需要了解手中的数据类型,这是最基础也是有必要的,在所有的数据类型中,我们将数据类型分为分类变量也为定类变量和连续变量也称为定量变量,那么什么是定类变量?什么是定量变量? 定类变量通俗...

全南县13981854872： 如何检验两组回归系数之间的差别？
诏通夫西： 例如,把性别作为调节变量,在AMOS里就可以用多组比较的方法,从结果报告的P值可以看出模型对男女是否等同;如在spss里对男女分别做回归,该如何分别回归,如何比较两个方程所得标准回归系数是否有差异呢? 举例: 女生组 y1=a1+b...

全南县13981854872： 组间、组内分析,是用方差分析还是t检验? - ？
诏通夫西： 若是前测后测2个水平,只需配对t检验变量的水平数目超过2个,需要用方差分析.(当只有2水平时候,也可用方差分析,结果的统计量与t检验是相同的)本质上是一样的,当不能用多次重复的两两t检验,因为这样会放大alpha类错误.方差分析不会.不过严格来说,方差分析要求个变量方差齐. 不过看你描述的题目要求,应该是采用重复测量方差分析的,组间变量是实验组-对照组;组内是重复的这若干次测量.是否你的方差齐次检验有误? 缺失值处理俺不会,若不多的话是不是用pairwise即可了.

全南县13981854872： 如何检验两组回归系数之间的差异显著性 - ？
诏通夫西： 随后作者比较了两个生育时期线性回归模型的回归系数(斜率)和截距,作者发现两个生育时期回归系数(斜率)差异不显著,而截距差异显著. 这种两组或多组回归系数之间的差异性如何检验?如何在R软件中实现?为此,我总结了回归系数 ...

全南县13981854872： 每组只有一个数据,怎么做组间t检验 - ？
诏通夫西： 方法/步骤利用f检验判断两整体的方差是不是相等;利用t检验判断两整体均值是不是存在显著差异.两独立样本t检验之前,对数据的正确处理是1个非常关键的任务,spss要求两组数据在1个变量中,即在1个列中,同时要定义1个寄存整体标志的标识变量.选择“检验变量”和“分组变量”,在“定义组”时,此处使用指定值,由于原始数据已定义相干组.置信区间通常是默许的95%.3结果解释:通过f检验的视察值为65.469,几率值为0,小于显著性水平,认为方差存在显著差异;再通过t检验的结果知,几率值都是小于显著性水平,认为两个整体的均值存在显著差异.最后的两列给出95%置信区间与整体均值差的上下限.

全南县13981854872： 求组间差异性可以用单因素分析么,是不是一定要符合正态分布,求指教如下的例子 - ？
诏通夫西： 单因素方差分析,操作百步骤: spss菜单中选择:分析——比较均值——单因素ANOVA 在弹出的对话框中把分组变量选入“因子”框,分枝角度选入因变量框,点击两两比较按钮,选择时候检验的方法,任选一种就可以了,两两比较就是在总...

全南县13981854872： 组内差异显著,组间差异不显著,该如何解释? - ？
诏通夫西： 帮老婆做论文里的实验数据分析,临时抱佛脚学习统计知识,现有一事不明,请教版内众高手: 实验内容: 有 A、B 两种干预方法,希望验证这两种方法能否有效改善人们的抑郁情绪. 实验分组: 1. A 组,使用方法 A 干预 2. B 组,使用方法 ...

全南县13981854872： 求两组数据之间用SPSS进行差异检验? - ？
诏通夫西： 长度t检验SPSS结果: t值=15.608 P值=0.000 两组的长度差别有统计学差异重量t检验SPSS结果: t值=6.832 P值=0.002 两组的重量差别有统计学差异

你可能想看的相关专题

星空见康网

组间差异检验，终于有人讲清楚了!

你可能想看的相关专题