2

错误链式反应:你看到的权威理论,可能没有那么可靠

 2 years ago
source link: https://www.36kr.com/p/1913664318361600
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

错误链式反应:你看到的权威理论,可能没有那么可靠

人神共奋·2022-09-13 12:43
错误是如何发生的
v2_6bcfef7120db40cbbd7ef4a8e00debca_img_000

前段时间,学术界爆出一个大丑闻,《发现》杂志经过调查,认定一篇由著名神经科学家Karen Ashe为通讯作者、于2006年发表在Nature上的文章,使用了多张经过篡改的图像。而这篇文章曾被引超过2300次,是阿尔茨海默症“淀粉样蛋白”假说领域的奠基性工作,全球各大公司一半的研发费用都放在这个方向上。

后果有多严重,还有争议,这不是本文要讨论的重点。我想说的是,在结论相对明确的自然科学界,又这么重要的奠基性文章都有问题,可想而知,在社会科学领域,有更多的我们深信不疑的理论,问题可能更严重。

特别是在心理学、经济学之类可以用统计数据和数学公式伪装成自然科学的领域,那些理论、假说,常常用于营销、服务等有经济利益的活动,更是值得我们警惕。

行为经济学的经典著作《思考,快与慢》一书中,曾经用“大数效应”为理论依据,批评很多研究成果样本数不足,但立刻就有人指出,本书中大量引用的社会心理学的“启发效应”,其实验同样存在样本数不足的问题。

“启发效应”可能是营销学家和大众媒体最喜欢引用的心理学研究,比如纽约大学心理学家约翰·巴赫的“热咖啡效应”,实验结果宣称,一个手里捧着一杯热咖啡的人,会增加别人对他的信任度。

果然,“启发效应”的大部分实验,最后都无法重复结果,让全世界的销售员浪费了大量咖啡。

甚至有很多大家耳熟能详的理论,根本就不是实验的结果,比如“啤酒与尿布”理论,说超市喜欢把啤酒放在尿布边上,方便下班回家的年轻爸爸在买尿布时,给自己带上一罐啤酒,超市因此可以增加啤酒的销量。

这个理论如此之有名,很多超市都做过这种尝试,但我们几乎看不到哪一个超市是这么陈列商品的,只能说明效果得不到销售数据的验证。

事实上,最早提出这个理论的人,根本就是营销专家,在某个课程中提到了自己曾经看到某超市这么做,这个效应听上去头头是道,却完全经不起任何实验的检验。

样本数效力不够是社会学实验的通病,这是因为,自然科学的要素之间的独立性比较强,只要符合统计要求的样本数就行了;但社会领域大部分事情之间,啤酒与尿布之间,咖啡与客户成交之间,必然存在忽高忽低的联系,小样本数下,任何结论都有可能得出。

一个可靠的社会学理论,需要非常大的样本数才有足够效力。

比如心理学上最著名的“旁观者效应”,即遇到紧急情况救助时,身边的人越多,得到救助的概率反而更小。为了证明这个效应,达利和拉丹这两位心理学家,前后十几年时间里,设计了各种各样的实验,单次试验的样本数也非常大,其中的电梯实验中,助手搭乘电梯的过程中故意丢下一些硬币或是铅笔,计算被对方捡起来的概率,研究团队安排了145名助手搭乘了1497次电梯,前后共有4813个人与他们共乘一部电梯。最后才得到结论:

当他们只与一个人搭乘电梯时,别人帮他捡起掉下的硬币与铅笔的概率是40%,而当他与多个人一起搭乘电梯的时候,被帮助的概率只有20%。

即使这样大的样本数,后来仍然有多个“旁观者效应”实验宣称得到相反的结论,所以“旁观者效应”的有效性也没有那么强。

说到这儿,还有一个问题,包括开头的“淀粉样蛋白”,这些都是非常著名的实验,事关全球几千万患者的健康,为什么这么低劣的造假手段,在长达16年的时间,没有被揭露呢?

这就是学术论文的“错误链式反应”。

有一天,某个学者(通常是社会科学领域)忽然产生了一个见识独到、似乎很有道理的想法。

于是他设计了一个实验去验证,但因为经费有限,或者说,社会科学领域太容易出想法了,平摊下来实验经费就有限了,他不得不缩减整个实验的时间,并虚报实验对象的样本数。

非常幸运的是,他得到了惊人的显著性统计效果,论文发表后,成为当年该领域的重大成果——事实上,这个想法早有人尝试,只是因为实验效果不明显而被搁置。

更多的研究者开始跟进研究,但不是重复这个实验,为了让自己的研究更有创新性,他们会改进这个实验的某些条件,以得到进一步的研究成果。

非常不幸的是,跟进的研究者大部分无法重复这个结果,他们怎么办呢?

如果实验结果完全无效,这些研究者会将之束之高阁,赶快进行下一项研究,而不是发表文章质疑这个结果;

如果实验结果有效但不明显,很多人会怀疑是自己设计或操作上的问题,要么修改结果,要么剔除一部分他认为不正确的结果,以增加显著性。

于是,越来越多的新实验,“证实”了这个假说,它也从学术领域进入大众视野。

直到有一天,某个认死理的研究者,为了搞清楚自己实验失败的原因,完全重复了数遍最初的实验……

总结这个“链式反应”,导致错误不能被及时纠正的三个原因出自人性的弱点:

1、学者发论文压力大,实验必须要成功

2、习惯于修辞数据,以让结果看起来更有说服力

3、质疑权威的风险大,延续权威结论的收益更稳定

所以,不能因为一个理论听上去很有道理,有一堆数据和专家背书,就认为它不可能出错。

曾经有读者批评我写文章,不给列出引用的参考文献。

我曾经一度也这么做过,可这让它看起来更像是一篇学术文章,暗示结论的科学性,但我本人并不确定这一点,我没有能力去重复那些实验的结果,它们只是看起来有道理,所以我希望它们以某一方面的观点而不是证据的形式呈现。

自媒体的文章不具有学术性,无论它的形式多么像一篇论文,它们的目的只是为了完成一篇文章,而不是一项研究。虽然有追求的作者总是尽量选择可靠的观点,但文章就是文章,追求的是阅读率、传播效果、而不是研究结果的可靠性。

所以,谨慎地对待你看到的任何权威文章,特别是那些看起来对你很有利的,引起你极度舒适的,并让你产生共鸣的观点。

本文来自微信公众号 “人神公奋”(ID:tongyipaocha),作者:人神共奋,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK