7

造个假数都不会造

 3 years ago
source link: https://yihui.org/cn/2009/04/bad-liars-and-statitistics/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

造个假数都不会造

谢益辉 / 2009-04-27


新华网关于学生冬季长跑的调查结果让人着实跌眼镜,一共调查了 100 人,报告中的结果都是 xx.xx% 形式的,例如 “92.79% 的学生认为强健了自己的身体”。这 0.79 个人是怎么来的?

咱们学统计的,应该对数字有一定的敏感性,比如当你看到小数位中含有 667 这样的数字(e.g. 0.291667)时就应该警觉:对方是否给出了样本量?如果没给的话,你就应该怀疑这个数字本来是 0.29166666…… 如果你不知道这个比例是怎么来的,那么就拿一些整数去乘这个比例,看看哪个数字乘以这个比例能得到整数。最终你发现是 24 的倍数,样本量是 7 的倍数。然后你再想,7/24、14/48、28/96、…… 这一系列数字哪对更符合这个调查的背景。如:若你怀疑调查者很懒,那么不妨猜测他 / 她就调查了 24 个人。

以上只不过是低级的数字游戏,对统计来说根本没派上用场,现在很多人都琢磨着怎么建个模型整个 P 值去忽悠答辩委员会,而事实往往是,费尽千般心思,辛辛苦苦调查来的数据在建模之后根本没法用,要么系数是反的,要么不显著,或者有自相关,或有异方差,总之和初衷很不符,此时,离答辩往往只剩下几个星期,怎么办呢?只好眼睛一闭心一横,改数据吧!怎么改呢……【此处省略八千字】最后,王子和公主们过上了幸福生活。

我一般不相信经济学论文中的统计模型,原因之一就是数据。

本小子还真中了 John Chambers 软件奖 最近实习、招聘信息很多

Disqus Utterances Preferences

© Yihui Xie 2005 - 2020

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK