周末的瞎扯：关于p值

作者&投稿：贠建（若有异议请与网页底部的电邮联系）

这个0.05是1类错误的概率。

1类和2类错误的定义倒是不难：

比如说我已经知道数据X的总体符合的正态分布，那当我设置好两个临界值（x1和x2）的时候，如果我们认为，现在变量X的值落在x1到x2，我们就接受假设（相当于上面1，2类错误矩阵的第二行）；而如果变量X的值落在x1左边，或者x2右边，我们就拒绝假设（相当于上面1，2类错误矩阵的第1行）。

那么接下来根据正态分布的概率分布曲线（pdf），我们可以求出来x1到x2之间pdf下方的面积有多少；以及x1和x2之外的pdf下面积有多少。这个x1和x2之外的面积代表的就是1类错误的概率，也就是我们说的p值。可能举一个 瞎扯的 例子能帮助说明一下。

比如说我已经知道成年男性的某个血生化指标（我们就叫它男性肾上腺素开，serum epinephrine chi，吧）。我们已经知道普遍来说，成年男性的均值是10 ng/dl，标准差是2 ng/dl。现在我们在某个社区抽样了50位男性，测了一下他们的水平，这50位成年男性的平均值是7 ng/dl。所以说这组样本是否来自符合普遍情况的男性群体呢？或者说，这个样本的水平是不是有点不符合正常？能不能够在某个置信区间（95%）或者检测水平（ )下一个结论？

所以这个时候要做出判断的流程无非就是下面5步：

1. 确定H0和H1. 这里H0就是样本来源的总体，均值 ,
这相当于给我们增加了一个条件。检验水平
2. 确定统计值。样本量50，而且没有明显证据说明是偏态分布，可以考虑样本均值符合 ) ,用正态分布的z值作统计值

3. 确定判断标准。作双侧检验，可以查出来z大概是正负1.96的时候两个z内侧pdf下面积是0.95，外侧是0.05，符合我们的要求。

4. 计算统计值, z是-10.6

5. -10.6比-1.96小，因此拒绝H0，接受H1，认为样本不来自正常总体，该社区男性值偏离正常。

所以当检测水平确认了以后，与之相对的，统计值的阈值就定下来了，之后就是计算统计值，拿算出来的统计值和阈值比较，决定是否拒绝零假设，接受备择假设。这一套流程里面，检测水平这个alpha肯定是要有的，而alpha所代表的就是两个阈值以外（这是指双侧检验的时候，为了图方便这个回答都会假定我们做的是双侧检验）的面积，也就是1类错误的概率。

所以简单来说，没有检验水平这个东西，假设检验的5步流程就走不动，也就是没得玩了。

其实上面一段还是没有讲到什么是p值，回到刚才男性值那个例子，当我们算出来统计值z=-10.6的时候，我们除了可以知道-10.6<-1.96，我们还可以计算出实际的p值，比如在excel里面使用公式： =NORM.S.DIST(-10.6,1) ，计算出来的p值是1.38x10e-26。这个p值是什么东西呢？它指的是z<=-10.6这个区域里，标准正态分布曲线下面的面积是多少；或者说标准正态曲线从负无穷到-10.6的积分。顺带一提 =NORM.S.DIST(-1.96,1) 求出来的是0.025。

而回到“p=0.049就比p=0.051好那么多么？”这个问题，用excel算一下就知道，在双侧检验的时候， =NORM.S.INV(0.0245) 可以求出 p值是0.0245的时候（0.49/2)，z值是-1.968，而用 =NORM.S.INV(0.0255) 可以求出p值是0.0255的时候（0.51/2)，z值是-1.951。也就是说，z值仅仅只是增加了0.017，统计结果就从可以拒绝零假设（因为这个时候p是0.0245，小于双侧检验时候的0.025）, 变成了不能拒绝。如果我们把z往样本平均值换算一下的话，这个时候样本平均值仅仅只是增加了

而已，在我们这个例子里，实际上只需要样本平均值增加个0.0048 ng/dl就能产生这样的差异了，这显然不是很ok。所以大家声讨二分法，主要应该还是在吐槽这个点。

实际上现在只是讲了1类错误，2类错误还完全没有涉及呢。2类错误从矩阵可以看到，指的就是原本有问题，但是我们发现不了这个问题的概率。举个例子说一下：

这个例子是从数理统计初级教程抄过来的：

在这个问题里面，如果机器是正常的话，那么64袋材料的重量平均值是符合蓝色直方图这种分布的。于是可以根据中值极限定理算出来设定好1.95和2.05两个阈值以后I类错误概率是多少。但是对于2类错误的计算，显然还需要知道什么是错误的。在这个例子里面我们认为出故障的机器具有平均值是1.94，标准差是0.14的特性。根据这两个参数我们可以画出来橙色的直方图，然后再算一下1.95到2.05之间橙色直方图的面积有多少，就可以算出来2类错误的概率了。

如果说1类错误的概率是假阳性的话，2类错误的概率就是假阴性了。但是感觉上，至少在临床研究里面，2类错误是很少被提到的。1类错误的下游，是大名鼎鼎的检测水平alpha以及与之对应的p值；与之相比2类错误显得有些默默无闻。当然我不是统计专业的，所以难免孤陋寡闻。

从原因上来说，可能贝叶斯条件概率理论会有一些提示作用吧。

比如说一个雷达，在天空有飞机飞过（天空有飞机飞过的概率是0.05)的时候，检测到的概率是

95%（检验功效，也就是1减去2类错误概率）；而没有飞机飞过的时候（天空没有飞机飞过的概率是1-0.05=0.95)，发出“有飞机飞过！！”信号的概率是 10%（1类错误概率）。那么，当这个雷达提示天空有飞机飞过的时候，实际上真的有飞机飞过的概率是多少？

用贝叶斯条件概率理论一顿乱算，最后可以得出来雷达提示天空有飞机飞过，实际上真的有飞机飞过的概率只有33%！

但是如果用常规的0.05作为检测水平，现在的好一些了，到了0.5……所以这就是我们用的这么多的0.05，在面对一个5%的罕见情况，而检验功效是（1-2类错误概率）95%时候能达到的水平，一半一半而已

如果用更好的0.01，现在的是83.3%，而使用0.001做检测水平的时候，可以增加到98%。

至于为什么2类错误去评价的比较少呢……我觉得如果你对一个仪器的检出水平（给一个阳性样本，出不了阳性结果）都没法有信心的话，那还是买进口大厂仪器比较好吧。

所以二分法看待p值肯定是不好的，0.05这个检验水平也要小心。但是p值是真的很重要。

周末的瞎扯:关于p值
其实上面一段还是没有讲到什么是p值，回到刚才男性值那个例子，当我们算出来统计值z=-10.6的时候，我们除了可以知道-10.6<-1.96，我们还可以计算出实际的p值，比如在excel里面使用公式： =NORM.S.DIST(-10.6,1) ，计算出来的p值是1.38x10e-26。这个p值是什么东西呢？它指的是z<=-10....

镇原县19631466367： 急请问统计学P值的意义,P - ？
迪亨甘氨：[答案] 统计学意义(p值)ZT 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法.专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有...

镇原县19631466367： 统计学中的P是什么意思 - ？
迪亨甘氨： 专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有总体代表性的犯错概率.如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的.即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果.(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关.)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平.

镇原县19631466367： 统计学p值的计算公式是什么? - ？
迪亨甘氨： p值,也称显著性值或者Sig.值,用于描述某件事情发生的概率情况,其取值范围是0~1,不包括0和1,通常情况下,一般有三个判断标准一个是0.01、0.05以及0.1.在绝大多数情况下,如果p值小于0.01,则说明至少有99%的把握,如果p值小...

镇原县19631466367： 通俗点说统计学中的P值是什么东西? - ？
迪亨甘氨： 通俗来说,p值就是拒绝原假设要冒的风险. 值越小,小风险可以接受,就拒绝;否则就无法拒绝. 这种解释可以辅助理解,但是并不严格~

镇原县19631466367： 统计学中的p值代表什么?？
迪亨甘氨： 我尽量用形象的语言说 p值越小说明犯第一类错误的概率越小你越可以推翻传统的、保守的观点越可以接受新提出的、感兴趣的观点什么是第一类错误统计上把保守的、传统的观点作为原假设新颖的、感兴趣的、想去论证的观点作为备择假...

镇原县19631466367： 显著性检验的P值是怎样定义的? - ？
迪亨甘氨： 1、统计学显著性检验,当显著性水平α取0.05时,P>0.05为“不显著”;P<=0.05为“显著”. P值指的是比较的两者的差别是由机遇所致的可能性大小.P值越小,越有理由认为对比事物间存在差异.例如,单侧检验显著性水平0.05对应的标准...

镇原县19631466367： 统计学中的P值应该怎么计算 - ？
迪亨甘氨： P值的计算公式是 =2[1-Φ(z0)] 当被测假设H1为 p不等于p0时; =1-Φ(z0) 当被测假设H1为 p大于p0时; =Φ(z0) 当被测假设H1为 p小于p0时; 其中,Φ(z0)要查表得到. z0=(x-n*p0)/(根号下(np0(1-p0))) 最后,当P值小于某个显著参数的时候(常用0.05,标记为α,给你出题那个人,可能混淆了这两个概念)我们就可以否定假设.反之,则不能否定假设.

镇原县19631466367： P值是如何计算得出的? - ？
迪亨甘氨： 样本量小的检验的P值看精确显著性. P值就是拒绝原假设的最小alpha值,把统计量写出来,带进去算出来之后,根据统计量的分布来算p值. 样本量比较大的时候用渐近显著性,样本量小就要看精确显著性,如果样本量小于30,应该看精确P...

你可能想看的相关专题

星空见康网

周末的瞎扯：关于p值

你可能想看的相关专题