13

数据分析 | 为什么需要因果推断?

 3 years ago
source link: https://zhuanlan.zhihu.com/p/31267805
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据分析 | 为什么需要因果推断?

厦门量潮科技有限公司 执行董事

在上一篇文章(什么是数据分析/数据科学?),我们介绍了什么是数据分析。本文我们继续延伸,讨论为什么需要在很多场景下做解释而不仅仅是预测。本文我们需要回答几个重要的问题:相关性在什么样的场景下无法帮助我们预测结果?如何基于因果推断解决问题?因果推断的成本和边界在哪里?

首先我们从一个经典的悖论——辛普森悖论(Simpson's Paradox)开始讨论起。历史上有一个经典的关于肾结石药物的研究。科学家们要试验两种治疗方法的效果,我们为了简便标记方案A和方案B。科学家们把病人标记成两类,结石小的和结石大的。(为什么这么标记可能有什么医学上的考虑,不是特别了解,欢迎医学的朋友科普。)治愈比例的统计如下:

v2-c04e355004040340d615b0c07dd0a45f_720w.jpg

我们看到了一个很有趣的现象:如果我们只看方案A和方案B的总比率,方案B效果更好;如果我们分别看两个组,那么方案A的效果更好。如果我们只看试验结果,得出的治疗方案会非常困扰我们的理解能力:如果我们可以探测结石大小,那么则选择方案A;如果无法探测结石大小,则选择方案B。也就是说,A或者B哪个方案好,取决于我们有没有测量病人的结石大小。这是一个很可笑的结论,是无法用来指导我们应该怎么来治疗病人的。

为什么会有这样的问题呢?我们缺少一个判断方法,决定我们应该相信哪个。仅仅从统计学方法本身我们已经找不到答案,因此这个时候我们需要学科背景来帮助我们解决问题。学科背景在这里发挥了什么作用呢?阐释因果关系。在上面的问题中,我们需要从理论出发,知道我们是不是应该把病人分成小结石组和大结石组。如果药物发挥作用和结石大小一点关系都没有,那么我们应该相信方案B;如果有关系,则我们应该相信方案A,并且我们可以进一步去研究药物对于小结石组和大结石组的效果哪个更好。

这里就体现了因果推断的重要性。我们需要用理论来阐述因果关系,这就是理论的意义。我们知道,为了保持逻辑的严谨,理论是基于假设的,而不能悬空建立。所以在应用理论的时候,首先要保证应用场景满足理论假设。而如果我们直接基于观察预测,我们则不去探测背后的条件,直接认为仍然是在和过去的环境下,事实上我们回避了如果条件变化怎么办这个问题。未来和过去经常会在不同的场景下,因此我们更需要知道,如果条件变化了应该怎么办,如何才能找到更普适性的方法适应未来的变化,让预期结果的估计更加准确。

因果推断是一个比较艰难的过程,需要付出很多成本。我们需要通过反复的研究来确定,在某一个实际环境下,哪些条件可以认为是不变的,可以被当做理论的假设或要解释的参数,哪些条件是变化的,我们应该把它们考虑进模型里面。而假设让理论的应用有了边界,因此没有理论是万能的,只有尽可能多地解释现实的,而找到这样一个好的假设是不容易的,需要很长时间的探索和检验。当背景条件实在太复杂的时候,比如在大数据背景下,因果识别本身变得极其困难,如果没有好的方法去探测因果关系,很多时候可能还不如忽略背景直接估计的效果好。因此因果推断也不一定是万能的,这需要理论不停地发展来适应新的问题。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK