美国统计协会开始正式吐槽（错用）P 值啦

（图片来源：https://xkcd.com/1478，一幅讽刺滥用 P 值的漫画）

今天美国统计协会（ASA）正式发布了一条关于 P 值的声（吐）明（槽），算起来可以说是近期统计学界的一件大事了。为什么这么说呢？首先，P 值的应用太广，所以对 P 值进行一些解释和声明非常有必要。其次，对 P 值的吐槽历来有之，但今天是第一次被一个大型的专业协会以非常正式的形式进行澄清，多少带有一些官方的意思。声明的全文可以在这个页面中下载。

那么这则声明里面都说了什么呢？小编整体读了一遍，把我认为重要的信息概括在这篇文章之中。

首先，ASA 介绍了一下这则声明诞生的背景。2014 年，ASA 论坛上出现了一段如下的讨论：

问：为什么那么多学校都在教 p = 0.05？

答：因为那是科学团体和期刊编辑仍然在用的标准。

问：为什么那么多人还在用 p = 0.05？

答：因为学校里还在这么教。

看上去多少有点讽刺的味道，但事实却也摆在眼前。从舆论上看，许许多多的文章都在讨论 P 值的弊端，小编摘录了几条言辞比较激烈的：

这是科学中最肮脏的秘密：使用统计假设检验的 “科学方法” 建立在一个脆弱的基础之上。——ScienceNews（Siegfried, 2010）

假设检验中用到的统计方法…… 比 Facebook 隐私条款的缺陷还多。——ScienceNews（Siegfried, 2014）

针对这些对 P 值的批评，ASA 于是决定起草一份声明，一方面是对这些批评和讨论作一个回应，另一方面是唤起大家对科学结论可重复性问题的重视，力图改变长久以来一些已经过时的关于统计推断的科学实践。经过长时间众多统计学家的研讨和整理，这篇声明今天终于出现在了我们面前。

P 值是什么

这份声明首先给出了 P 值一般的解释：P 值指的是在一个特定的统计模型下，数据的某个汇总指标（例如两样本的均值之差）等于观测值或比观测值更为极端的概率。

这段描述是我们通常能从教科书中找到的 P 值定义，但在实际问题中，它却经常要么被神话，要么被妖魔化。鉴于此，声明中提出了六条关于 P 值的准则，作为 ASA 对 P 值的 “官方” 态度。这六条准则算是这条声明中最重要的部分了。

准则 1：P 值可以表达的是数据与一个给定模型不匹配的程度。

这条准则的意思是说，我们通常会设立一个假设的模型，称为 “原假设”，然后在这个模型下观察数据在多大程度上与原假设背道而驰。P 值越小，说明数据与模型之间越不匹配。

准则 2：P 值并不能衡量某条假设为真的概率，或是数据仅由随机因素产生的概率。

这条准则表明，尽管研究者们在很多情况下都希望计算出某假设为真的概率，但 P 值的作用并不是这个。P 值只解释数据与假设之间的关系，它并不解释假设本身。

准则 3：科学结论、商业决策或政策制定不应该仅依赖于 P 值是否超过一个给定的阈值。

这一条给出了对决策制定的建议：成功的决策取决于很多方面，包括实验的设计，测量的质量，外部的信息和证据，假设的合理性等等。仅仅看 P 值是否小于 0.05 是非常具有误导性的。

准则 4：合理的推断过程需要完整的报告和透明度。

这条准则强调，在给出统计分析的结果时，不能有选择地给出 P 值和相关分析。举个例子来说，某项研究可能使用了好几种分析的方法，而研究者只报告 P 值最小的那项，这就会使得 P 值无法进行解释。相应地，声明建议研究者应该给出研究过程中检验过的假设的数量，所有使用过的方法和相应的 P 值等。

准则 5：P 值或统计显著性并不衡量影响的大小或结果的重要性。

这句话说明，统计的显著性并不代表科学上的重要性。一个经常会看到的现象是，无论某个效应的影响有多小，当样本量足够大或测量精度足够高时，P 值通常都会很小。反之，一些重大的影响如果样本量不够多或测量精度不够高，其 P 值也可能很大。

准则 6：P 值就其本身而言，并不是一个非常好的对模型或假设所含证据大小的衡量。

简而言之，数据分析不能仅仅计算 P 值，而应该探索其他更贴近数据的模型。

声明之后还列举出了一些其他的能对 P 值进行补充的分析方手段，比如置信区间，贝叶斯方法，似然比，FDR（False Discovery Rate）等等。这些方法都依赖于一些其他的假定，但在一些特定的问题中会比 P 值更为直接地回答诸如 “哪个假定更为正确” 这样的问题。

声明最后给出了对统计实践者的一些建议：好的科学实践包括方方面面，如好的设计和实施，数值上和图形上对数据进行汇总，对研究中现象的理解，对结果的解释，完整的报告等等——科学的世界里，不存在哪个单一的指标能替代科学的思维方式。

参考文献：ASA Statement on Statistical Significance and P-values

普渡大学统计系博士，现为卡耐基梅隆大学博士后，感兴趣的方向包括计算统计学、机器学习、大型数据处理等，参与翻译了《应用预测建模》《R 语言编程艺术》《ggplot2：数据分析与图形艺术》等经典书籍，是 showtext、RSpectra、recosystem、prettydoc 等流行 R 软件包的作者。邱怡轩

敬告各位友媒，如需转载，请与统计之都小编联系（直接留言或发至邮箱：[email protected]），获准转载的请在显著位置注明作者和出处（转载自：统计之都），并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← COS 每周精选：深度学习 COS 访谈第 21 期：史建军：饱学致用育桃李，锦袍换酒傲江湖 →

发表 / 查看评论

美国统计协会开始正式吐槽（错用）P 值啦

美国统计协会开始正式吐槽（错用）P 值啦

P 值是什么

准则 1：P 值可以表达的是数据与一个给定模型不匹配的程度。

准则 2：P 值并不能衡量某条假设为真的概率，或是数据仅由随机因素产生的概率。

准则 3：科学结论、商业决策或政策制定不应该仅依赖于 P 值是否超过一个给定的阈值。

准则 4：合理的推断过程需要完整的报告和透明度。

准则 5：P 值或统计显著性并不衡量影响的大小或结果的重要性。

准则 6：P 值就其本身而言，并不是一个非常好的对模型或假设所含证据大小的衡量。

Recommend

第九届中国 R 语言会议（武汉）暨华中地区数据科学会议通知

COS 沙龙第 36 期（北京）纪要

Python 的七种武器

所造之境，必合乎自然——探讨数据科学与人工智能学科的发展

第九届中国 R 语言会议（贵阳）暨西南地区数据科学会议通知

R 绘制中国航线分布夜景图

圈层营销不是品效合一魔法，长期价值你看到了吗？| 专题系列之四

降维攻击：目标，比率指标

第七届中国 R 语言会议（北京会场）通知

统计学上的创造力

About Joyk