1

女士品茶的实验、假设和检验

 3 years ago
source link: https://cosx.org/2019/05/recheck-the-lady-tasting-tea/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

女士品茶的实验、假设和检验

关键词:实验设计; 假设检验

编辑:于淼、林枫 审稿:黄湘云、魏太云

R. A. Fisher 的名著《实验设计;第八版,1971 年》第二部分有十六页,仅仅讲了一个最简单的实验:女士品茶。这个故事非常有名,以至于 Salsburg 的统计学通俗读物就以它命名:《女士品茶:20 世纪统计怎样变革了科学》。

51TruAK%2BQ-L._SX311_BO1,204,203,200_.jpg

先回顾一下这个故事。在英国的 Rothamsted 实验站,Fisher 给一位名叫 Muriel Bristol 的女士倒了一杯茶,但是 Bristol 表示,自己更喜欢先将牛奶倒入杯中,再倒入茶。这位女士号称能够分辨先倒茶和先倒牛奶的区别。作为实验设计的鼻祖,Fisher 当然想用实验检验一下:这位女士的味觉是否有这么敏锐?Fisher 倒了 8 杯奶茶:其中 4 杯 “先奶后茶”,其余 4 杯“先茶后奶”。随机打乱次序后,Fisher 请 Bristol 品尝,并选出“先奶后茶” 的 4 杯,看她是否能分辨奶和茶的顺序。下面的2×2表格大致描述了这个问题,其中k是 Bristol 选对的 “先奶后茶” 的杯数。

Bristol “先奶后茶” Bristol “先茶后奶” 总数 Fisher “先奶后茶” k 4−k 4 Fisher “先茶后奶” 4−k k 4 总数 4 4 8

抛开严格的数学,先做一些直观的计算。也许 Bristol 并没有任何分辨能力,仅凭运气,她也可能全部答对。随机地从 8 杯中选 4 杯 “先奶后茶”,可能完全正确 (k=4);不过这个事件的概率是

1(84)=170=0.014

这是一个小概率事件,概率小于 0.05 (通常的统计显著性水平)。所以,若是 Bristol 全部答对,那么她 “没有任何分辨能力” 这个假设就和数据不太相容,可以拒绝这个假设。也许 Bristol 运气不够好,错选了 1 杯“先奶后茶”(k=3),这个事件的概率是

(43)(41)(84)=1670=0.229

这并不算一个小概率事件,即使 Bristol 全凭运气蒙对 3 杯 “先奶后茶” 也无甚稀奇。

从上面的简单计算看,只有当 Bristol 完全答对的时候,我们才拒绝她 “没有任何分辨顺序的能力” 这个假设,承认她有分辨能力。

历史上的结果是什么呢?Bristol 完全答对。

上面的组合数来自哪里?在2×2的表格中,行列和都固定,k 服从超几何分布,所以上面两个式子无非是超几何分布取 4 和 3 的值。这是通常教科书对 “女士品茶” 的解释。

但是超几何分布又从哪里来呢?再想想这个例子的不平凡之处:

  1. 实验只有一个样本,且不是随机抽取的。
  2. 即使我们认为 Bristol 品尝 8 次是 8 个样本,这些样本都是相关的。
  3. 更严重的是,前面几杯可能会影响后面几杯的口感,也许会有滞后作用。

这些问题并不是很容易回答。下面是对 “女士品茶” 实验的一个严格解释。

这里的实验是什么?实验者可以控制的,就是 8 杯奶茶的顺序,完全随机打乱,一共有 (84)=70 种可能性。用 z=(z1,...,z8) 表示这个顺序,其中 4 个分量 “先茶后奶”,另外 4 个分量 “先奶后茶”。考虑如下的实验:在每一个 z 下,Bristol 给出她对 8 杯茶的鉴定结果 y(z)=(y1(z),...,y8(z)),其中 4 个分量 “先茶后奶”,另外 4 个分量 “先奶后茶”;每一个 z 对应一个向量结果 y(z) ;z有 70 种可能,因此y(z)最多也有 70 种可能。这些y(z)都是固定的数,它们在实验前就定了。实验者只能随机选取某个顺序Z=(Z1,...,Z8),对应的 Bristol 对 8 杯茶的鉴定结果是y(Z)=(y1(Z),...,y8(Z))。

零假设是什么?Fisher 《实验设计》的 II.8 的题目就是 “The null hypothesis”,这里他花了两页,可见这问题不那么显然,我认为这是问题的核心。Fisher 选择了如下的零假设:实验者可以控制的顺序 z 对 Bristol 的判断没有任何影响。数学上就是 H0:y(z) 不依赖于 z。因此,Bristol 判定为 “先茶后奶” 和“先奶后茶”的杯子固定,即y(Z)=y是一个固定的向量不随着Z而变化,唯一变化的是Z本身,在 70 种可能性中随机选一个。这是这个零假设特别的地方。如果不选择这个零假设,那么y不固定,Z和y都是随机的, 随后的统计推断会很复杂。

现在可以做假设检验了。实验者的 70 种可能的 Z,也许恰好匹配了 Bristol 的 y,但这只有 170=0.014 的概率。也许 Z 中只有 6 杯匹配对了y, 这有 1670=0.229 的概率。注意,这里的计算公式和前面的超几何分布一模一样。读者若是不熟悉这种计算,可以用两行 R 代码看看:

y = c(1, 1, 1, 1, 0, 0, 0, 0)
Zpossible = t(combn(8, 4, tabulate, nbins = 8))

第一行是 Bristol 的 y,经过顺序调整,前 4 杯 “先奶后茶”,后 4 杯 “先茶后奶”。在零假设下,这个向量固定。第二行是所有可能的 Z , 一共 70 种可能。大家可以简单比较一下,只有一行可以与 y 完全匹配,有 16 行可以和 y正确匹配 6 杯。和前面的讨论类似,若是选择 0.05 作为显著性水平,那么只有 Bristol 完全答对,我们才能拒绝零假设;否则,无法拒绝。

回到前面的 1、2 和 3,新的解释是否回答了这些问题呢?新的解释引入了记号 y(z),它们是一些固定的数,于是我们不关心是否有随机抽样,样本是否有相关性。从这个记号看,第 8 杯的品尝结果可以受到第 1 杯是否 “先茶后奶” 的影响。问题的关键是,Fisher 选择的零假设很特别,即 z 完全不影响 y(z) ,因此 y 在零假设下是个固定的向量。这样一来,整个统计问题的随机性仅仅来自于 Z,这是实验者随机化产生的,它成了统计推断的基础。《实验设计》全书从此正式展开。

2004-2011 年在北京大学概率统计系学习,获得学士和硕士学位;2011-2015 年在哈佛大学统计系学习,获得博士学位;2015 年在哈佛大学流行病学系做博士后;2016 年加入伯克利统计系任教。研究方向是因果推断。丁鹏

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 基于 R Markdown 的演示文稿和报告模板使用经验 中国传统中的统计思维 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK