从调查报告中的比例数字说统计人如何甄别统计假象
source link: https://cosx.org/2009/04/from-proportion-to-conclusion/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
新华网刚发布了一个关于学生冬季长跑的调查结果(于 2009 年 4 月 27 日 13:52 访问),一共调查了 100 人,结果中却出现了 92.79% 这样的比例数字,有常识的读者都知道,世上不存在 0.79 个人,因此这里面必然有某个地方是错的(姑且不妄言造假)。这则消息让我马上想起《统计陷阱》这本书,我们生活中有多少陷阱呢?
从消息编辑人员的角度来说,他们可能觉得保留两位小数显得 “精确”,而这种“精确精神” 从数学的角度来说显得既可爱又可笑,如果小数位能表示精确,那何不保留 100 位小数呢?
从统计人的角度来看,对这种调查报告中的比例数字应该有足够的警觉。很多调查报告并不会告诉我们究竟样本量多大(在这一点上新华网的调查网还比较诚实),这种情况下,我们应该弄清究竟调查了多少对象,当样本量很小的时候我们会怀疑这个调查的代表性。当我们看到比例 66% 的时候也许能想起来这是 2/3(猜测样本量是 3 的倍数),但对 29.1667% 这个比例我们未必能很快反应出来分子和分母是多少,若报告公布方没有说明样本量,我们只能自己猜测;对于 667 这样的数字,我们很容易猜测这是 6 循环的四舍五入。最终大概思路就是拿比例去挨个乘以一系列整数,看看哪个结果接近整数,从而 “还原” 原来的分式 n/N。以下是简单的 R 代码:
> digit = ((1:100) * 0.29166666)%%1 # 整除1之后的“余数”
> plot(digit, ylim = c(0, 1))
> idx = which((1 - digit) < 1e-05 | (digit - 0) < 1e-05) # 与0或1很靠近时
> points(idx, digit[idx], pch = 20)
> abline(v = idx, lty = 2)
> axis(3, idx)
> idx * 0.29166666
[1] 7 14 21 28
我们很容易发现分母(样本量)是 24 的倍数,因为上图中 24 的倍数乘以 29.167% 得到的结果很靠近整数;而具备某种特征的样本数量为 7 的倍数。根据具体的调查背景,我们可以自己猜测报告方究竟调查了多少人:24 人?太少;960 人?为什么不是 1000 人?……
上面只是统计侦查的小游戏而已,当我们具备更多统计知识储备之后,便可以去考虑一些具体的统计模型输出是否存在造假嫌疑。我想,P 值在 0.05 之下且很靠近 0.05 的时候,或 P 值一律接近于 0 的时候,我们不妨以小人之心揣测这个模型也许有问题。当因子分析中,50 个变量能根据载荷被准确划分到作者预先设定的 5 个因子中时(5 列因子载荷一律都是只在某个因子上取值极大),这个分析也许存在嫌疑。当然,所有的 “小人之心” 的前提假设都是:理想情况在现实中是不容易出现的(这是赤裸裸的假设检验逻辑)。
中国人民大学统计硕士,爱荷华州立大学统计学博士,R 包 knitr 的主要作者。现为 RStudio 软件工程师,曾负责 Shiny 包相关开发工作,后转入 R Markdown 相关扩展包的开发,包括 bookdown 和 blogdown。对统计计算、可视化、以及各类网页相关技术感兴趣,有志于对技术写作工具做减法工作,坚信人类浪费了太多时间在期刊论文、学位论文、书籍的排版上。平时主要活跃在 Github 上。个人主页在 https://yihui.name,思想偏激,流水账、意识流甚多,小人之心甚重,慎入。敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
← 如何设计一个试验 统计之都《本周导读》第十一辑 →Recommend
-
127
2017-10-06 08:24国庆档的票房“战争”:注水和幽灵场爆满假象作者 | 秦泉随着假期进入后半程,国庆档五部影片的大战也已见分晓,《羞羞的铁拳》在今日超过10亿票房,剩下的四部影片都处于第二阵营。第二阵营的...
-
42
此份报告是在今年11.11期间,以调查问卷和随机抽样的方式,对西二旗地铁站周边的互联网行业非单身人士进行了调查。(据说有一半的问卷因为填写“单身”而作废)
-
32
指标,是用来衡量产品发展的重要参数。但是,过度依赖指标,可能会被数据蒙蔽,没有真正认识到产品的真正发展情况。 指标是任何企业都会有的一个数据,只是不同企业指标不同。对于产品而言亦是如此,指标是体现一款产品是否良性发展以及业务表现的参数。 但是正因...
-
10
李德林:谁制造了仁东的假象? 2020年12月14日20:41 作者:李德林 (0) 我有话说(5人参与) ...
-
10
运营思维:如何甄别系统性风险问题or执行问题? 15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>
-
6
二十篇系列:摆在发行商面前的不仅是甄别产品,还有甄别假反馈 发布时间:2021-03-22 08:54:18 Tags:Payday Crime War,
-
4
时间不同步造成的trace高时延假象 – 峰云就她了 峰云就她了 专注于Golang、Python、DB、cluster 该 topic 有点唬人,只为水一篇文章, 如果...
-
6
缺芯都是假象:2021 年二季度汽车半导体厂商财报解读汽车之心4小时前严格意义上的「缺芯」已经过去。首先需要再次说明的是,除非自研零部件的...
-
3
培根先生假象的理解 2021-09-182021-09-18 字数: 1.2k编号: 267 培根先生在他的《新工具》里面提到四大幻想:种族【人类的感觉】,洞穴【理想国第7卷】, 市场【文字与交流】...
-
7
技术面试官如何甄别培训班学员 我大概做了9年左右技术面试官,主要是面java的,就以这个身份说说如何筛选各种...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK