假设检验相关

作者&投稿:冉涛 (若有异议请与网页底部的电邮联系)
~

首先结论如下,在对比 两个算法 多个数据集 上的表现时:

在对比 多个算法 多个数据集 上的表现时:

文章结构如下:(1-2) 算法对比的原因及陷阱 (3-4) 如何对比两个算法 (5-6)如何对比多个算法 (7)如何根据数据特性选择对比方法 (8)工具库介绍。

统计学家George Box说过:“All models are wrong, but some are useful”(所有模型都是错误,只不过其中一部分是有价值的)。通俗来说, 任何算法都有局限性,所以不存在“通用最优算法”,只有在特定情境下某种算法可能是渐进最优的

因此,评估算法性能并选择最优算法是非常重要的。不幸的是,统计学评估还没有在机器学习领域普及,很多评估往往是在一个数据上的简单分析,因此证明效果有限。

首先我们常说的是要选择一个 正确的评估标准 ,常见的有:准确率(accuracy)、召回率(recall)、精准率(precision)、ROC、Precision-Recall Curve、F1等。

选择评估标准取决于目的和数据集特性。在较为平衡的数据集上(各类数据近似相等的情况下),这些评估标准性能差别不大。而在数据严重倾斜的情况下,选择不适合的评估标准,如准确率,就会导致看起来很好,但实际无意义的结果。举个例子,假设某稀有血型的比例(2%),模型只需要预测全部样本为“非稀有血型”,那么准确率就高达98%,但毫无意义。在这种情况下,选择ROC或者精准率可能就更加适当。这方面的知识比较容易理解,很多科普书都有介绍,我们就不赘述了。

其次我们要正确理解 测量方法 ,常见的有

举个例子,我们想要分析刷知乎时间(每天3小时 vs. 每天10小时)对于大学生成绩的影响。如果我们使用相同的20个学生,观察他们每天3小时和10小时的区别,那就是重复测量。如果我们选择40个学生,分成两组每组20人,再分别观察那就是独立测量。如果我们先找20个学生,再找20个和他们非常相似的大学生,并配对观察,就是成对相似。

我们发现,当错误的理解测量方式时,就无法使用正确的统计学手段进行分析

在这篇文章中我们默认:评估不同算法在多个 相同数据集 上的表现属于 重复测量 ,而特例将会在第七部分讨论。同时,本文介绍的方法 可以用于对比任何评估标准 ,如准确度、精准度等,本文中默认讨论准确度。

</noscript>

<figcaption>图1. 两种算法在14个数据集上的准确率 [1]</figcaption>

图1展示了两种决策树方法(C4.5,C4.5+m)在14个数据集上的准确率。那么该如何对比两种算法呢?先说几种错误(不恰当)的方法:

不恰当方法1:求每个算法在所有数据集上的均值,并比较大小 。错误原因:我们对于算法在不同数据集上错误的期望不是相同的,因此求平均没有意义。换句话说,数据不符合相称性(commensurate)。

不恰当方法2 进行配对样本t检测(Paired t test) 。显然,t test是统计学方法,可以用来查看两种方法在每个数据上的平均差值是否不等于0。但这个方法不合适原因有几点:

不恰当方法3:符号检验(sign test) 是一种无参数(non-parametric)的检验,优点是对于样本分布没有要求,不要求正态性。比较方法很简单,就是在每个数据集上看哪个算法更好,之后统计每个算法占优的数据集总数。以这个例子为例,C4.5在2个数据集上最优,2个平手,10个最差。如果我们对这个结果计算置信区间,发现p<0.05需要至少在11个数据集上表现最优。因此这个方法的缺点有:

</noscript>

<figcaption>图2. 符号检验的临界值表</figcaption>

考虑到通用性,我们需要使用非参数检验。换句话说,我们需要保证对样本的分布不做任何假设,这样更加通用。

方法1:Wilcoxon Signed Ranks Test(WS ) 配对t检验的无参数版本 ,同样是分析成对数据的差值是否等于0,只不过是通过排名(rank)而已。换个角度看,我们也可以理解为 符号检验的定量版本 。优点如下:

</noscript>

<figcaption>图3. 两种算法在14个数据集上的准确率与排序[1]</figcaption>

方法2(详见第七部分):Mann Whitney U test (MW)和WS一样,都是无参数的且研究排名的检验方法。MW有以下特性:

换句话说,MW是当样本量不同时才建议勉强一试,因为不符合独立测量的假设。不同数据集的错误(准确率)不一定符合特定分布,很可能不符合相称性,但在特定情况下有用,详见第七部分。

总结:如果样本配对且符合正态分布,优先使用配对t检测。如果样本不符合正态分布,但符合配对,使用WS。如果样本既不符合正态分布,也不符合配对,可以尝试MW。

</noscript>

<figcaption>图4. 四种算法在14个数据集上的准确率与排序[1]</figcaption>

图4提供了四种算法(C4.5,C4.5+m,C4.5+cf,C4.5+m+cf)在14个数据集上的准确率。

不恰当方法1 :一种看法是,我们是否可以把两个算法的对比推广到多个算法上。假设有k个算法,我们是否可以对它们进行两两比较,经过 [图片上传失败...(image-e51766-1591681946691)]

次计算得到一个矩阵。这个是经典的多元假设检验问题,这种穷举法一般都假设了不同对比之间的独立性,一般都不符合现实,需要进行校正,因此就不赘述了。

不恰当方法2 Repeated measures ANOVA 是经典的统计学方法,用来进行多样本间的比较是,可以看做是t检验的多元推广。ANOVA不适合对比算法表现的原因如下:

不幸的是,我们想要对比的算法表现不符合这个情况,因此ANOVA不适合。

我们需要找到一种方法同时解决第5部分中提到的问题,这个方法需要:

Demšar [1]推荐了非参数的多元假设检验 Friedman test 。Friedman也是一种建立在排名(rank)上的检验,它假设所有样本的排序均值相等。具体来讲,我们首先给不同算法在每个数据集上排序,并最终计算算法A在所有数据集上排名的均值。如果所有算法都没有性能差别,那么它们的性能的平均排名应该是相等的,这样我们就可以选择特定的置信区间来判断差异是否显著了。

假设我们通过Friedman test发现有统计学显著( p <0.05),那么我们还需要继续做事后分析(post-hoc)。 换句话说,Friedman test只能告诉我们算法间是否有显著差异,而不能告诉我们到底是哪些算法间有性能差异。想要定位具体的差异算法,还需要进行post-hoc分析。

Friedman test一般配套的post-hoc是Nemenyi test,Nemenyi test可以指出两两之间是否存在显著差异。我们一般还会对Nemenyi的结果可视化,比如下图。

</noscript>

<figcaption>图5. Nemenyi对10种算法的对比结果,NS代表不显著</figcaption>

另一个值得提的是,即使Friedman证明算法性能有显著不同,Nemenyi不一定会说明到底是哪些算法间不同,原因是Nemenyi比Friedman要弱(weak),实在不行可以对必须分析的算法成对分析。

方法2(详见第七部分):和两两对比一样,在多个样本对比时也有一些特定情况导致我们不能使用Friedman-Nemenyi。另一个或许可以值得一试的无参数方法是Kruskal Wallis test搭配Dunn's test(作为post-hoc)。 这种方法的特点是:

我们在第二部分分析了重复测量与独立测量,而且假设机器学习性能的对比 应该是建立在“重复测量”上的,也就是说所有的算法都在相同的数据集上进行评估

在这种假设下,我们推荐了无参数的:Wilcoxon对两个算法进行比较, Friedman-Nemenyi对多个算法进行对比。

然而,“ 重复测量”的假设不一定为真 。举个例子,如果我们只有一个数据,并从数据中采样(sample)得到了很多相关的测试集1, 2,3...n,并用于测试不同的算法。

在这种情况下,我们就可以用Mann Whitney U test对比两种算法,Kruskal-Dunn对比多种算法。 而且值得注意的是,这种情况常见于人工合成的数据,比如从高斯分布中采样得到数据 。因此,要特别分析数据的测量方式,再决定如何评估。

Scipy Statistical functions :Wilcoxon,Friedman,Mann Whitney

scikit-posthocs :Nemenyi,Dunn's test

[1] Demšar, J., 2006. Statistical comparisons of classifiers over multiple data sets. Journal of Machine learning research , 7 (Jan), pp.1-30.




向大虾请教设备报检相关知识(字数越多越好)
8.对数量较多或者大型设备的定期检验,需要设置现场检验检测办公场所的,应当提供办公场所。 对设立专门检验检测基地进行移动式设备的定期检验,其准备工作一般由检验检测机构进行,申请单位予以配合。 具体的条件和要求见特种设备相关的定期检验规则等安全技术规范。 (二)实施机构 国家质检总局核准的特种设备检验检测机构。

简述假设检验的步骤?
(6) 做出判断 (7) 根据判断进行投资决策 二、假设检验的相关概念 (一)原假设(Null Hypothesis)与备择假设(Alternative Hypothesis)假设检验的第一步就是建立假设。通常将被检验的假设称为原假设(null hypothesis),记为;当被拒绝时而接受的假设称为备择假设,记为或.原假设与备择假设...

为什么要对相关系数进行显著性检验?
进行显著性检验是为了消除Ⅰ类错误和Ⅱ类错误。确定两个变量相关之后,两个变量之间的相关是否是因为偶然因素产生的,如果是因为抽样造成的,就没有必要去探究,如果不是因为机遇造成的,就说明其背后存在一个系统的因素,即必然性,这个时候我们就有必要去深究其显著性。通常情况下,α水平属于第一类错误...

如何用eviews做序列自相关检验
2、在“WF”里面输入文件名,以便于我们寻找文件,这里的所有输入内容都不能为汉字。完成所有的设置就点击【OK】即可。3、例如我的数据是1999~2014,就是1999年到2014年的数据,类型就选择“Annual”,数据区间就是“1999 2014”,如图;我们做的是自相关,就可以命名为“zxg”,其他默认设置就可以;...

为什么进行统计检验?说明相关系数F检验回归标准差等统计检验的意义
进行统计检验的目的是通过对样本数据的分析,以便对总体或总体之间的差异、关系或效应进行推断。统计检验帮助我们评估观察到的数据是否支持某个假设或理论,从而使我们能够做出科学和可靠的结论。相关系数是用来衡量两个变量之间线性关系强度的统计指标。F检验用于衡量多元回归分析中自变量对因变量的整体解释力度...

直线相关系数的假设检验,如果r>r0.001,34,α=0.05,可认为
【答案】:D r>r0.001,34,可知P<0.001,按照α=0.05的标准,拒绝H0,接受H1。即X、Y间有线性关系。

怎么看stata相关性检验结果
1、使用系统自带的数据做RESET检验,sysuse auto,解释:导入系统中自带数据,autodescirbe解释:看看数据的构成。2、reg price rep78 headroom trunk weight length,解释:对数据进行回归。3、使用y的拟合值进行RESET检验,estat ovtest,发现p的拟合值为0.051这个数比较接近拒绝域,我们认为我们可能遗漏了...

显著水平名词解释
2、显著水平的概念对于理解假设检验和统计分析非常重要。通过设定一个适当的显著水平,我们可以控制我们在拒绝原假设时犯错误的概率。这可以帮助我们更好地理解数据分析的结果,并做出更准确的决策。3、除了显著水平,还有其他一些与假设检验相关的概念,如统计功效和样本大小。统计功效是指当备择假设为真时...

假设检验单尾和双尾怎么区分呢?
1、当H0采用等号,而H1采用不等号,双尾检验。2、当H0是有方向性的,单尾检验。临界值是与目前t值比较的临界t值。H0:原假设,零假设---零是相关系数为0,说明两个变量无关。系H1:备用假设。H0与H1是完备事件组,相互对立,有且只有一个成立;在确立假设时,先确定备设H1,然后再确定H0,且...

相关系数的显著性检验是什么意思?
1、为什么要对相关系数进行显著性检验?原因:所有的假设检验都是要分析显著性的,拿相关系数来说,我们虽然求得了相关系数值,但是这个相关系数有没有统计学意义呢?换句话说,我们看到的这个相关系数是确实存在呢?还是说只是抽样误差导致的?显著性检验就是要解决这个问题的,如果显著,则表明相关的确...

瑶海区15330971489: 假设检验(数理统计学名词) - 搜狗百科
谭梵丽科: 统计学中假设检验的基本步骤: 1.建立假设,确定检验水准α 假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设.H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1,根据备择假设不同,假设检验有单、双...

瑶海区15330971489: 假设检验问题,请高手速给予解释
谭梵丽科: 假设检验就是检验单个样本总体,或是两个样本总体的相关度和差异度... 常用的假设检验方法有u—检验法、t—检验法、X2检验法、F—检验法等. 假设检验的一般步骤 假设检验的一般步骤: (一)根据所研究问题的要求,提出原假设 和...

瑶海区15330971489: 假设检验的问题!!! -
谭梵丽科: 这主要是我们采用的假设检验一般都是显著性检验法的特点决定的,显著性检验发一般只能确保对原命题检验的第一类错误(弃真错误)的概率控制在事先给定的概率a之下,而第二类错误 (取伪错误)的概率一般不容易保证. 按上面题的意思应该是零部件耐高温1000℃的概率保证在99%以上,如果选择A,则假设检验方法只保证零部件合格时有99%的概率不被否定,而零部件不合格时被选择(取伪)的概率可能很大,所以A错误.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网