3

数据统计误区

 3 years ago
source link: https://zhiqiang.org/math/data-behind-the-real.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据统计误区

作者: 张志强

, 发表于 2007-05-12

, 共 682 字 , 共阅读 86 次

假设某一天,某媒体发布一条消息,说清华大学研究生新生录取的面试过程中,每个系的女性报考者的通过率都要比男性报考者的通过率要低,然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法?

魔鬼经济学中教育我们要对数据进行分析,揭露隐藏在表象世界下的真实世界。但是,对于数据的不同分析方式,会得出截然不同的结果,至少表面上看起来截然不同。

比如在上面的例子,表面上看起来女性报考者在每个系都受到了歧视,但真实情况如何呢?

为了简单起见,不妨将各系分为两大类,文科系和理工科系,

文科 理工科 全校 男 4/10=40% 20/100=20% 24/110=22% 女 30/100=30% 1/10=10% 31/110=28%

表格里面的 a/b=c%的含义为 b 人报考, a 人通过,通过率为 c%。

这个例子便显示即使数据表明在每个系,女性通过率要低于男性,在全校范围看来,女性的通过率也可能比男性高,这样看来,歧视女性报考者的说法就无法成立了。

上面是一个例子,显示出数据必须从整体来看。下面是一个例子,单从整体来看数据也是不够的。

某气象台号称它的天气预报整体准确率高达 80%。你对这个数据有何看法?

似乎 80%是足够高了。但其实不然。大多数人关注的天气也就是下雨和不下雨之分。任何一个人都能预测天气,达到 90%以上的准确率,只需要总是预测不下雨即可(显然,在北京,雨天的概率要<10%)。

想想看,你是否被人用上面的两种方法忽悠过?

注:上面的例子和数据均为作者伪造,清华大学也从没有歧视女性之说,请勿用作其它论据。

Q. E. D.


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK