4

长文综述:机器学习的因果关系图谱

 2 years ago
source link: https://zhuanlan.zhihu.com/p/355180872
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

长文综述:机器学习的因果关系图谱

柏林工业大学 建筑能源数字化博士在读

因果模型(Causality)是由图灵奖得主,贝叶斯网络的发明者Judea Pearl[1]提出,在沉寂多年之后,目前成为机器学习领域的热门话题,因果模型指出,当前我们的机器学习模型仅仅是停留在观察阶段(observation),即通过统计学方法发掘数据之间的内在联系,而无法进一步提出假设性问题和因果(WHY,cause and effect),从而向更高层级的智慧跃迁。

什么是智慧?
“Faking it, is having it. …Faking intelligence, is intelligence, because it’s not easy to fake. It’s very hard to fake…and you can only fake it if you have it.” - Judea Pearl

本文是我读综述文章 CAUSALITY FOR MACHINE LEARNING 总结翻译得来,一方面也帮助自己理解文章(小黄鸭调试法!),作者是马普所的Bernhard Schölkopf[2],原文可参阅[3],致敬!

阅读本文默认你已经掌握相关 统计学、机器学习深度学习(监督、非监督、强化学习以及常用网络和机制)概率论尤其马尔科夫,贝叶斯相关概念

禁止全文转载,大篇幅引用请标注出处并私信告知!

文章很长,持续更新中:

  1. 综述
  2. 信息处理的机械化
  3. 从统计模型到因果模型
  4. 因果模型的层次(Levels of Causal Modelling)
  5. 独立因果机制(Independent Causal Mechanisms)
  6. 因果关系探索(Cause-Effect Discovery)
  7. 不变性、稳健性和半监督学习(Invariance, Robustness, and Semi-Supervised Learning)
  8. 因果表征学习 (Causal Representation Learning)
  9. 后记

由Judea Pearl开创的图形化因果推理GCI(Graphical Causal Inference)人工智能(AI)研究,在过去很长一段时间里,与机器学习领域几乎没有联系。本篇综述内容主要介绍了机器学习和人工智能的难点开放问题与因果关系的内在联系,并解释了在人工智能领域如何开始理解因果关系问题。

近年来,在机器学习领域对因果关系的关注度显著增加。我对因果关系的理解是由Judea Pearl和一些合作者及同事形成的,包括《Elements of Causal Inference - Foundations and Learning Algorithms》《The book of why》其中的一些理论正在进入机器学习的主流,特别是认为因果建模可以带来更稳健的模型的观点。人们对因果关系和机器学习界面的发展感到兴奋,本文试图把作者的构思写下并画出一幅更大的图景。希望它不仅可以通过讨论因果思维对人工智能的重要性,而且可以作为机器学习受众对图形或结构性因果模型的一些相关概念的介绍。

如果,我们将机器学习能做的事情与动物所能完成的事情进行比较,我们观察到当前的机器学习算法在动物擅长的一些关键性功能上表现相当糟糕。因为机器学习经常会忽略动物会大量使用的因果信息方法:例如,在世界中的干预(intervention)领域转移(domain shift)时间结构(temporal structure)。机器学习也不擅长Konrad Lorenz意义上的思考,即在想象的空间中行动。而对因果关系的研究,尤其是对其建模和推理干预,可以为理解和解决这些问题作出实质性贡献。本文主要以非技术性的语言进行描述,因为这一领域的许多困难是概念性的。

信息处理的机械化

第一次工业革命始于18世纪末,由蒸汽机和水力引发。第二次工业革命大约在一个世纪后开始,由电气化推动。如果我们从广义上考虑,那么这两次是关于如何产生和转换能量的形式。在这里,"生成 (generation)"一词是在通俗的意义上使用的--在物理学上,能量是一个守恒量,因此不能被创造,只能从其他能量形式中转换或收获。有人认为我们现在正处于另一场革命之中,被称为数字革命、大数据革命,以及最近的人工智能革命。

然而,这场变革真正开始于20世纪中期,在控制论的名义下已经开始。它用信息取代了能源。和能源一样,信息也可以被人处理,但要做到工业化规模,我们需要发明计算机,而要做到智能化,我们现在用的是人工智能。就像能源一样,信息其实可能是一个守恒的量,我们可能永远只能对它进行转换和处理,而不是凭空产生。当机器学习应用于工业领域时,我们往往会将用户数据转化为对未来用户行为的预测,从而获得金钱。货币最终可能是一种信息的形式--这种观点与解决密码学问题产生的比特币的观点不谋而合。第一次工业革命使能源成为一种通用货币;同样的情况也可能发生在信息上。

就像能源革命一样,目前的信息革命主要有两个组成部分:第一个组成部分建立在电子计算机的出现、高级编程语言的发展和计算机科学领域的诞生之上,由通过操纵符号创造人工智能的愿景所产生;第二种,也就是我们目前正在经历的,依靠学习。它允许从非结构化数据中也提取信息,而且它能从数据中自动推导出规则,而不是依靠人类来构思和编程这些规则。虽然Judea的因果方法产生于经典的人工智能,但他也是最早认识到人类编程的硬性规则的一些局限性的人之一,因此率先将经典的人工智能与概率论结合起来。这催生了图形模型GCI的雏形,这些模型被机器学习界所采用,然而基本上没有注意其因果语义。近年来,机器学习和因果性之间出现了真正的联系,我们认为,如果我们想要在人工智能的重大开放问题上取得进展,对于这些联系的研究是至关重要的。

当时,自动处理能源的手段的发明改变了世界。它使一些领域的人类劳动变得多余,而在另一些领域则催生了新的工作和市场。第一次工业革命围绕煤炭创造了工业,第二次工业革命围绕电力创造了工业。信息革命的第一部分在此基础上创造了电子计算和IT产业,第二部分则是将IT企业转型为 "人工智能优先",以及围绕数据收集和标注创造产业。虽然后者为当前人工智能的主力军--监督机器学习(supervised machine learning)提供了标签化的数据,但人们可以预见,新的市场和产业将出现定向或干预信息的因果形式,而不仅仅是统计依赖关系

虽然将能量和信息之间类比的方法非常具有说服力。但目前,我们现在对信息的理解相当不全面,就像前两次工业革命过程中对能量概念的理解一样。现代人对能量概念的深刻理解是在数学家Emmy Noether那里,他明白能量守恒是由于物理学基本定律的对称性(或称共变性):“无论我们如何变换时间,在现在、过去和未来,能量看起来都是一样的。”爱因斯坦在建立能量和质量之间的等价关系时,也是依靠共变原理。在基础物理学家中,人们普遍认为信息也应该是一个守恒的量,尽管这带来了一定的争议,尤其是在宇宙学中[4]。人们可以推测,信息的守恒也可能是对称性的结果[5]--这部分最令人感兴趣,因为它将帮助我们理解不同形式的(现象学)信息之间的关系,并定义一个统一的信息概念。

显然,数字商品在某些方面与物理商品不同,信息和能源也是如此。除非我们进入量子领域,否则纯数字商品的复制成本基本为零。另一方面,复制物理物品的成本可能与原物的成本一样高(例如,黄金)。在其他情况下,当实物商品具有超常态的信息结构时(例如,一台复杂的机器),复制它的成本可能会比原物便宜。在当前信息革命的第一阶段,复制和盗版的对象是软件,业界投入了大量的精力来防止这种情况。在第二阶段,复制的对象扩展到数据集,因为给定了合适的机器学习算法和计算资源,其他人也可以从数据集中提取同样的信息。相较于信息而言,能量则只能使用一次。

就像第一次工业革命对技术、经济和社会产生了重大影响一样,目前的信息革命最终也很可能是如此。可以说,我们的信息处理能力是人类在这个星球上占据主导地位的基础,因此也是人类对地球产生重大影响的基础。既然是关于信息处理的问题,因此,当前的革命可能比前两次工业革命更有意义。

从统计模型到因果模型

独立和相同分布(independent and identically distributed data - IID)数据驱动方法 在过去数十年间,我们将机器学习应用于大数据问题方面,取得了令人印象深刻的成就。其中,有多种趋势在发挥作用。

  1. 我们拥有海量数据,通常来自于模拟或大规模的人为标注标签;
  2. 我们使用大规模的机器学习系统(即具有许多可调参数的复杂函数类);
  3. 我们采用高性能的计算系统;
  4. 问题是IID(独立和相同分布,这点经常被忽略,但在涉及因果关系时至关重要)。

当前机器学习任务的数据集通常一开始就是IID(例如,使用基准数据集进行图像识别),或者是人为地使其成为IID:例如,通过为给定的应用问题仔细收集合适的训练集,或者通过DeepMind的 "experience replay[6]"等方法,强化学习通过代理(Agent)存储观测值,以便以后为了进一步的训练而对其进行换算。

对于IID数据,适用于通过强大的统计学习理论得到普遍一致性的结果,以保证学习算法收敛到可实现的最低风险。这种算法确实存在,例如最近邻分类器(Nearest Neighbor Classifiers)和支持向量机(Support Vector Machines)。从这个角度来看,如果给我们足够的数据,机器学习模型确实可以媲美或超越人类的表现。然而,在面对违反IID假设的问题时,即使在人类看来微不足道的问题,机器的表现往往很差。如果一个通常被高准确度识别的对象被放置在一个在训练集中可能与该对象存在负相关的上下文中,视觉系统可能会被严重误导。例如,这样的系统可能无法识别出一头站在沙滩上的牛。更为戏剧性的是,"对抗性弱点"现象凸显了通过在图像中添加适当选择的噪声(人类无法察觉)而产生的对IID假设的微小但有针对性的对抗从而导致危险的错误,如交通标志的混淆。近年来,"防御机制 "和新的攻击之间的竞赛层出不穷。总体而言,目前的很多实践(解决IID基准问题)以及大多数理论成果(关于IID环境下的泛化)都没有解决跨数据的泛化开放问题。

为了进一步理解IID假设的问题方式,我们举一个购物的例子。假设小明在网上寻找一个笔记本背包(即一个有垫子的背包,可以装笔记本),网店的推荐系统建议她应该买一台笔记本来搭配背包。这似乎很奇怪,因为他可能已经有一台笔记本电脑了,否则不会一开始就找这个背包。在某种程度上,笔记本电脑是因,背包是果。如果我被告知其他买包的顾客是否买了笔记本电脑,就会减少我对小明是否也买了一台笔记本电脑背包的不确定性,反之亦然--而且这样做的数量是一样的(相互的信息),所以失去了因果的指向性。但是,它在产生统计依赖性的物理机制中是存在的,例如,一旦顾客拥有了笔记本电脑,他就会想买背包。推荐购买某件商品构成了对系统的干预,使我们跳出了IID环境。我们的工作对象不再是观察分布(observational distribution),而是一个某些变量或机制发生变化的分布(a distribution where certain variables or mechanisms have changed)。这就是因果关系(causality)的领域。

Reichenbach(1956,时间之箭)明确阐述了因果关系和统计依赖性之间的联系。他假设了 "共因原理(Common Cause Principle)"如果两个观测值X和Y在统计上是相互依赖的,那么存在一个变量Z,它对两者产生因果影响,并解释了所有的依赖性,即以Z为条件时,使它们独立。作为一种特殊情况,这个变量可以与X或Y重合,假设X是鹳鸟出现的频率,Y是人类的出生率(在欧洲国家,据报道这两者是相关的)。如果鹳鸟带来了婴儿,那么正确的因果图是X→Y,如果婴儿吸引了鹳鸟,则是X←Y,如果有其他一些变量导致这两者的发生(如经济发展),则有X←Z→Y。

其中,最关键的信息是,如果没有额外的假设,我们无法用观测数据来区分这三种情况。在这三种情况下,这些模型所能实现的X和Y上的观测分布类别是相同的。因此,一个因果模型比一个统计模型包含的信息真正更多。

鉴于我们有两个观测值的情况已经很困难了,我们可能会想,多个观测值的情况是否是完全没有希望。令人惊奇的是,情况并非如此:问题在一定程度上变得更加容易,原因在于,在这种情况下,存在着非平凡条件独立性特性所隐含的因果结构(nontrivial conditional independence properties)。这些可以用因果图或结构图(causal graphs or structural causal models)的语言来描述因果模型,合并了概率图模型(probabilistic graphical models)和干预概念( the notion of interventions),并且,最好用定向的从属关系描述(directed functional parent-child relationships)而不是条件描述(conditionals)。虽然后者看来概念简单,但正如Pearl后来所表示的那样,这是理解因果关系的一个重大步骤:

我们将可能性(possibility)用功能对应物[公式]代替为定向的从属关系描述[公式] ,突然间,一切都开始变得顺理成章。我们终于有一个数学对象,可以将物理机制的熟悉属性归于其中,而不是那些模糊认识论概率 [公式] ,在贝叶斯网络的研究中,我们已经使用了它很久。

结构性因果模型(Structural causal models, SCMs) 对于那些更习惯于用估计函数而不是概率分布来思考的机器学习研究者来说,SCM观点是直观的。在SCM中,我们被赋予一组观测值X1,......,Xn(建模为随机变量)与有向无环图(directed acyclic graph,DAG)G的顶点相关联。我们假设每一个观测值都是一个赋值的结果:

公式1[公式]

使用一个确定性函数 [公式] ,取决于 [公式] 在图中的父节点(用 [公式] 表示)和一个随机的未知变量 [公式] 。图中的定向边代表直接因果关系,因为父节点通过定向边与 [公式] 相连,并通过公式1直接影响 [公式] 的赋值。噪声 [公式] 保证了整体对象可以代表一个普遍的条件分布 [公式] ,噪声集 [公式] 被假定为共同独立(jointly independent)。如果它们不是,那么根据共因原则(Common Cause Principle),应该有另一个变量引起它们的依赖性,因此我们的模型将不具备因果关系(not causally sufficient)。

如果我们指定 [公式] 的分布,公式1的递归应用就可以计算出隐含的观测联合分布 [公式] 。这个分布具有继承自图结构的特性:它满足因果马尔可夫条件(causal Markov condition),即在其父节点的条件下,每个 [公式] 独立于其非子节点。直觉上,我们可以把独立的噪声看作是在图中传播的 "信息探针(information probes)"(就像花边新闻中的独立元素可以在社会网络中传播一样)。它们的信息被纠缠在一起,表现为条件依赖的足迹(footprint),使得我们有可能使用独立性测试从观察数据中推断出图结构。就像在花边新闻的类比中一样,脚印可能没有足够的特征来确定一个独特的因果结构。如果只有两个观测值,肯定是不行的,因为任何非平凡的条件独立性陈述(nontrivial conditional independence statement)至少需要三个变量。

在过去的十年里,我们研究了两个观测值的问题。我们意识到,可以通过做出额外的假设来解决这个问题,因为不仅图拓扑在观测分布中留下了足迹,而且函数 [公式] 也是如此。这一点对于机器学习来说是很有趣的,在机器学习中,很多注意力都放在函数类的属性上(例如,先验(priors)或容量度量(capacity measures))。在这之前,我们还要注意公式1的两个方面。首先,SCM语言可以直接将干预(interventions)形式化为修改赋值公式1子集的操作:例如,改变 [公式] ,或者将 [公式] (同时也改变 [公式] )设置为一个常数。其次,图结构以及噪声的联合独立性意味着由公式1引起的联合分布的规范因子(canonical factorization)转化为因果条件,我们将把它称为因果(或分解)因子化(causal (or disentangled) factorization)

公式2: [公式]

同时,公式2还有许多变式,例如:

公式3: [公式]

公式2是唯一一个将联合分布分解为与结构赋值公式1相对应的条件式。我们认为这些是负责观测值之间所有统计依赖性的因果机制(causal mechanisms)。相应地,公式3相反,分解的因子化将联合分布表示为因果机制的产物。

统计学习的概念基础是一个联合分布 [公式] (其中通常 [公式] 中的一个是表示为 [公式] 的响应变量),我们对用于近似的函数类做出假设,比如说,回归 [公式] 。因果学习考虑了更丰富的假设类,并试图利用联合分布拥有因果因子化的事实(公式2)。它涉及到因果条件 [公式] (即函数 [公式] 和(公式1)中 [公式] 的分布),这些条件之间的关系,以及它们所接受的干预或变化。

因果模型的层次

作为物理背景出身的学生,我倾向于把一组耦合微分方程看作是物理现象建模的标准,它使我们能够预测一个系统的未来行为,推理系统中的干预效果,并且能够通过适当的平均,预测通过与时间耦合并演化产生的统计依赖性(statistical dependences)。它还可以让我们深入了解一个系统,解释它的功能,特别是读出它的因果结构:微分方程组的耦合

公式4: [公式]

当设定初始值 [公式] ,柯西定理(Picard-Lindelöf)[7]指出,至少在局部,如果 [公式] 是Lipschitz连续,则存在一个唯一的解 [公式]这意味着 [公式] 的过去值包含着未来的一部分信息。如果我们把它写成无穷微分 [公式][公式] ,我们得到:

公式5: [公式]

由此,我们可以确定向量 [公式] 的哪些项会引起其他项 [公式] 的未来,即因果结构。这就告诉我们,如果我们有一个物理系统,可以用这样的普通微分方程公式4来建模,对 [公式] 进行求解,那么就可以直接读出它的因果结构。

虽然微分方程是对一个系统的相对完整的描述,但相较而言,统计模型可以被看作是一个更浅显的模型。它通常不包括时间描述,相反,它告诉我们,只要实验条件不变,一些变量的改变可以预测其他变量的变化。例如,如果我们用某种类型的噪声来建立一个微分方程系统,或者我们随着时间的推移进行平均,那么可能会出现x的组成部分之间的统计依赖性,然后这些可以被机器学习所利用。这样的模型并不能让我们预测干预措施的效果,然而,统计学的优势在于它通常可以从数据中学习规律,而微分方程通常需要智能的人类来提出。因果模型介于这两个极端之间。它的目的是提供理解和预测干预措施的效果。

模型在IID数据中预测在干预情况下预测回答反事实问题了解物理现象通过数据进行学习机械/物理公式是是是是?结构因果是是是??因果图是是否??统计学是否否否是

独立因果机制(Independent Causal Mechanisms,ICM)

我们现在回到公式2联合分布 [公式] 的分解因式。当 [公式] 是独立的时候,这种根据因果图的因式化总是可能的,但是我们现在要考虑一个额外的独立性概念,它与公式2中的因子相互关联。我们可以用下图所示的一种称为Beuchet Chair的光学错觉来非正式地介绍它。

图1:Beuchet椅子,由两个独立的物体组成,当从特殊的有利位置看时,显得像一把椅子,违反了物体和知觉过程之间的独立性。

每当我们感知一个物体时,我们的大脑都会做出这样的假设:这个物体和它的光中所包含的信息到达我们大脑的机制是独立的。我们可以违反这一点,从一个特殊的视角来观察物体。如果我们这样做,感知可能会出错:在 Beuchet 椅子的例子中,我们感知到的是一把椅子的三维结构,而实际上它并不存在。上述独立性假设是有用的,因为在实践中,它在大多数时候是成立的,我们的大脑因此依赖于物体独立于我们的有利位置和照明。在视觉研究中,这被称为通用视点假设。同样,如果我们在物体周围移动,我们的有利位置就会发生变化,但我们假设总体生成过程的其他变量(如照明、物体位置和结构)不受此影响。这是上述独立性所隐含的一个不变性(invariance),使我们即使在没有立体视觉的情况下也能推断出3D信息("从运动中获得结构")。极端违反这一原则的一个例子是,头戴式VR显示器跟踪一个感知者的头部,并据此调整显示屏。这样的装置可以造成与现实不符的视觉场景的错觉。

另一个例子,考虑一个由海拔高度A气象站年平均温度T组成的数据。A和T是相关的。假设我们有两个这样的数据集,一个是奥地利,一个是瑞士。两个联合分布由于海拔高度的边际分布 [公式] 不同,因此条件 [公式] 可能相当不同。然而,条件 [公式] 可能相当相似,因为它们描述了从海拔高度产生温度的物理机制。然而,如果我们只看整体的联合分布,而没有A→T的因果结构的信息,这种相似性就会消失。而纠缠因子化 [公式] 则不会表现出这种稳健性。当我们考虑系统中的干预措施时,也是如此。一个模型要想正确地预测干预措施的效果,它需要在从观察分布到某些干预分布的泛化方面是鲁棒的。

这种机制可以总结为独立因果机制(Independent Causal Mechanisms,ICM)原则,它表示:系统变量的因果生成过程是由互不影响的独立模块组成

这个原则包含了几个对因果关系很重要的概念,包括因果变量的独立可介入性子系统的模块化自主性以及不变性。如果我们只有两个变量,就会简化为原因分布和产生效果分布的机制之间的独立性。

应用于因果关系式公式2,该原理告诉我们,各因素应该是独立的,其意义在于:

  1. 改变(或干预)一个机制 [公式] 并不改变其他机制 [公式] ,且
  2. 知道一些其他机制 [公式] 并不能给我们提供关于机制 [公式] 的信息

因此,我们的独立性概念包含两个方面:前者与影响力有关,后者与信息有关。

我们认为任何现实世界的分布都是因果机制的产物。这种分布的变化(例如,当从一个环境/领域转移到一个相关的环境/领域时)将总是由于至少一个机制的变化。与独立性原则一致,我们假设较小的变化往往以一种稀疏或局部的方式表现出来,即它们通常不应该同时影响所有因素。相反,如果我们考虑一个非因果的因子化,例如公式3,那么当我们改变负责系统统计依赖性的物理机制之一时,许多项将同时受到影响。因此,这样的因式化可以称为纠缠(entangled),这个术语在机器学习中得到了普及。

在整个因果关系研究的历史上,不变的、自主的和独立的机制的概念已经以多种形式呈现过,我们的贡献可能是将这些概念与信息独立性的概念统一起来,下面将描述其中的一些特殊情况(算法信息)。

机制的依赖性措施(Measures of dependence of mechanisms)

注意,两个机制 [公式][公式] 的依赖性与随机变量 [公式][公式] 的统计依赖性并不一致。事实上,在一个因果图中,即使所有的机制都是独立的,许多随机变量也会有依赖性。

直观地说,独立的噪声项 [公式] 提供并参数化了一个机制 [公式] 是非决定性的事实中包含的不确定性,从而确保每个机制都增加了一个独立的不确定性元素。因此,我喜欢把ICM原则看作是包含了SCM(Structural causal models 因果结构模型) 公式1中未解释的噪声项的独立性,这是一个特殊的例子。然而,它不止于此,正如下面的例子所说明的那样。考虑两个变量和结构赋值 [公式][公式] 。即,原因X是一个噪声变量(密度为 [公式] ),而效果 [公式] 是原因的确定性函数。我们再假设 [公式][公式] 的范围都是[0,1],并且 [公式] 是严格单调递增的。那么,独立因果机制的原理就可以归结为 [公式][公式] 的独立性,让我们把 [公式] 和导数 [公式] 看作是概率空间[0,1]上的随机变量,用它们的相关性来衡量机制的依赖性,可以看出,对于 [公式][公式][公式] 的独立性意味着 [公式][公式] 之间的依赖性(见下图2)。直观地讲,在ICM假设下,效应分布的 "不规则性(irregularity) "变成了输入分布中已经存在的不规则性和函数引入的不规则性之和,即两种机制的不规则性相加而不是相互补偿,而在反因果方向上则不会出现这种情况。

算法独立性(Algorithmic independence)

到目前为止,我已经讨论了因果结构和统计结构之间的联系。两者中最基本的是因果结构,因为它首先抓住了产生统计依赖性的物理机制。统计结构是一种表象,如果我们使未解释的变量成为随机的,那么它就会随之而来。谈论机制中包含的统计信息是很粗浅的,因为通用情况下的确定性函数既不产生信息,也不破坏信息。

图2:如果独立选择f和px,那么pY的峰值为往往出现在f斜率小而f-1斜率大的区域。因此pY包含了f-1的信息。

机制的独立性可以定义为算法信息的相互抵消;也就是说,如果知道一个条件不能帮助我们实现另一个条件,则认为两个条件是独立的。

算法信息论为非统计图形模型提供了一个天然的框架。就像后者通过使未解释的变量 [公式] 随机得到结构性因果模型一样,我们通过使 [公式] 位串(在各节点间共同独立),并将节点 [公式] 看作是固定的图灵机在输入 [公式] 上运行程序 [公式] 的输出,从而得到算法图形模型。类似于统计学的情况,我们可以定义一个局部的因果马尔可夫条件,一个全局的d-separation条件,以及一个类似于公式2的联合Kolmogorov复杂性的加法分解,并证明它们是由结构性因果模型所隐含的。这种方法的优雅之处在于,它表明因果关系并不内在地受制于统计学,由于独立程序扮演了未解释的噪声项的角色,因此噪声的独立性和机制的独立性是一致的

算法独立机制的假设对物理学有着耐人寻味的意义,因为它原来就意味着热力学第二定律(即时间之箭)。考虑一个过程,一个传入的有序粒子束(原因)被一个物体(机制)散射。那么传出的光束(效果)就包含了物体的信息。这就是视觉和摄影的原因:光子包含了它们被散射到的物体的信息。现在我们从物理学上知道,从微观上看,时间演变是可逆的。然而,光子只有在散射后才包含了物体的信息。为什么会出现这种情况,或者换句话说,为什么照片显示的是过去而不是未来?

原因是独立性原则,我们将该原则应用于初始状态和系统动力学,假设二者在算法上是独立的,即知道一个就不能对另一个进行更短的描述。那么我们就可以证明系统状态的Kolmogorov 复杂度在时间演化下是不下降的。如果我们把Kolmogorov复杂性看作是熵的量度,这意味着状态的熵只能保持不变或增加,相当于热力学第二定律,并为我们提供了时间的热力学箭头。

请注意,这与动力学的微观不可逆性并不矛盾:时间演化后产生的状态显然不独立于系统动力学:如果我们能够冻结所有的粒子并逆转它们的动量,我们就可以因此回到原始构型,而不违反我们的热力学第二定律。

因果关系探索(Cause-Effect Discovery)

让我们回到从观测数据中发现因果关系的问题。根据适当的假设,如置信度(faithfulness),人们有时可以通过执行条件独立性检验,从观测数据中恢复底层图的各个方面信息。然而,这种方法存在几个问题。一是在实践中,我们的数据集总是有限的,而条件独立性检验是一个众所周知的困难问题,尤其是当条件集是连续和多维的时候。因此,虽然原则上,无论SCM中出现的函数的复杂程度如何,因果马尔科夫条件所隐含的条件独立性都是成立的,但对于有限的数据集,如果没有额外的假设,条件独立性检验是很困难的。另一个问题是,在只有两个变量的情况下,条件独立性的三元概念会崩溃,马尔科夫条件因此也会失效。

事实证明,以上两个问题都可以通过对函数类进行假设来解决。这对于机器学习来说是很典型的,众所周知,不对函数类做假设的有限样本泛化是不可能的。具体来说,虽然有一些学习算法是普遍一致的,即在无限样本极限下接近最小预期误差,但对于数据中的函数依赖性,都存在这种收敛性放缓的情况。所以,对于给定的样本量,我们是否能实现低预期误差,将取决于所学习的问题,统计学习理论以函数类的复杂度的度量提供了概率保证。

回到因果关系,我们提供一个直觉,为什么对SCM中函数的假设应该是必要的,以便从数据中了解它们。考虑一个只有两个观测值X → Y的SCM,在这种情况下,公式1就变成了:

公式6: [公式]

公式7: [公式]

并且 [公式][公式] 条件独立。现在把 [公式] 看作一个随机选择变量,从一组函数 [公式] 中选择。如果 [公式] 以一种非平稳的方式依赖于 [公式] ,那么从有限的数据集中应该很难收集到关于SCM的信息,因为 [公式] 没有被观察到,而且它在任意不同的 [公式] 之间随机切换。这就促使我们限制 [公式][公式] 的复杂性。一个自然的限制是假设一个噪声模型(additive noise model)

公式8: [公式]

公式9: [公式]

如果公式7中的 [公式] 平稳地依赖于 [公式] ,并且如果 [公式] 是相对集中的,这可以通过局部泰勒展开论证。它极大地降低了函数类的有效大小。

因此,对函数类的假设有助于解决因果推理问题。它们还可以帮助解决基于条件独立性检验的因果发现方法的另一个弱点。最近在(条件)独立性检验方面的进展严重依赖于内核函数类来表示重现内核希尔伯特空间中的概率分布。

我们因此收集了一些证据,证明机器学习的想法可以帮助解决以前被认为很难的因果关系问题。然而,同样令人感兴趣的是相反的方向:因果关系可以帮助我们改进机器学习吗?现今的机器学习(因此也是现代人工智能的大部分)是基于统计建模的,但随着这些方法的普及,它们的局限性也越来越明显。

不变性、稳健性和半监督学习(Invariance, Robustness, and Semi-Supervised Learning)

大约在2009年或2010年,"神经网坦克都市传说[8]"似乎对这个问题有一些启示。在这个故事中,一个神经网被训练成对坦克进行高精度的分类,但随后发现,由于数据收集过程中只关注了一个包含坦克类型信息的特征(如时间或天气),从而获得了成功。这样的系统在对不同环境下拍摄的新坦克进行测试时,不会表现出鲁棒性。我的希望是,一个包含因果关系的分类器能够对这种变化(干扰因素)保持不变,这也是我之前用非因果方法研究的课题。我们开始思考因果性和协方差之间的联系,因果机制应该是不变的,同样,任何建立在学习这些机制上的分类器也应该是不变的。然而,许多机器学习分类器并没有使用因果特征作为输入,事实上,我们注意到它们更多的时候似乎是在解决反因果性问题,即使用效果特征来预测原因。因果方向对于某些机器学习问题是至关重要的。

半监督学习 Semi-supervised learning (SSL)

假设我们的底层因果图是X → Y,同时我们试图学习一个映射X → Y,这种情况下的公式2可以表示为:

公式10: [公式]

独立因果机制(ICM)认为,一个联合分布的因果分解中的模块不会相互告知或影响。这意味着,特别是 [公式] 应该不包含 [公式] 的信息,这意味着SSL应该是徒劳的,因为它是利用 [公式] 的额外信息(来自未标记的数据)来改善我们对 [公式] 的估计。那么反过来呢,在这种情况下,SSL应该有希望吗?事实证明答案是肯定的,由于第5节中提到的使用独立因果机制进行因果推理的工作。它引入了输入和输出给定输入的条件之间的依赖性度量,并表明如果这种依赖性在因果方向上为零,那么在相反的方向上将是严格的正值。因此,在因果方向上的原因和机制的独立性将意味着,在逆向方向上(即对于反因果学习),输入变量的分布应该包含给定输入的输出条件的信息,即机器学习通常关注的量。很明显,当试图通过使用未标记的输入来改进给定输入的输出估计时,这正是SSL所需要的信息。因此,我们预测,SSL对于因果学习问题应该是不可能的,但在其他方面是可行的,特别是对于反因果问题

对抗性弱点 Adversarial vulnerability

另一反面,我们可以推测在因果方向应该也会受到对抗性攻击从而产生影响,包括对输入的微小改变。虽然人类观察者看不到,但却会改变分类器的输出。

这在多方面因果关系相关。首先,这些对抗会对预测性机器学习基础的IID假设进行攻击。如果我们要做的只是在IID环境下进行预测,那么统计学习就可以了。然而,在对抗式环境中,修改后的测试示例并不是从与训练示例相同的分布中抽取的:它们构成了优化的干预,以揭示(反因果关系) [公式]非鲁棒性

对抗现象也表明,当前分类器表现出的鲁棒性与人类表现出的鲁棒性是相当不同的。如果我们同时知道这两种鲁棒性度量,我们就可以尝试最大化其中一种,同时最小化另一种。当前的方法可以看作是对此的粗略近似,有效地将人类的鲁棒性建模为一个数学上简单的集合,比如说,一个半径 [公式][公式] 球:它们通常试图找到导致分类器输出变化最大的例子。

另一方面,我们也可以考虑将我们的模型因子化为组件(参见公式3)。如果这些组件对应于因果机制,那么我们期望有一定的鲁棒性,因为这些机制是自然界的属性。因此,我们可以假设,对于因果学习问题(从原因预测结果),对抗性的例子应该是不可能或者很难被找到:研究表明,抵御对抗性攻击的一种可能的防御方法是通过对因果生成方向建模来解决反因果分类问题,这种方法在视觉中被称为综合分析法(analysis by synthesis)

总体而言,对于有两个以上顶点的因果图,我们可以推测,由自主模块组成的结构,例如从公式2给出的结构,在交换或修改单个组件方面应该是比较稳健的。

在研究策略行为时,即考虑到其他代理(Agent)(包括人工智能代理)的行动的决策或行动,稳健性也应该被重点考虑。例如,一个系统,它试图根据一组特征预测成功偿还信贷的概率。例如,该集合可以包括一个人当前的债务,以及他们的地址。为了获得更高的信用分数,人们可以因此改变自己目前的债务情况(偿还债务),或者通过搬到更富裕的社区来改变地址。前者可能会对还款的概率产生正向因果影响;对于后者,这种可能性较小。因此,我们可以通过只使用因果特征作为输入,建立一个对这种战略行为更为稳健的评分系统。

多任务学习 Multi-task learning

假设我们想建立一个能够在多种环境下解决多种任务的系统。这样的模型可以把学习过程当做信息压缩的过程。基于训练集 [公式] 学习将 [公式] 映射到 [公式] 的函数 [公式] 可以看作是给定 [公式][公式] 的条件压缩。我们希望找到最稳健的一个系统,可以从给定的 [公式] 确定 [公式]

举一个例子:假设Alice想把标签传达给Bob,并且两人都有相同输入。首先,他们同意使用有限的函数集 [公式] 。然后,Alice从函数集中挑选最好的函数,并告诉Bob它是哪个函数(所需的信息比特量将取决于集合的大小,也可能取决于Alice和Bob之间商定的先验概率)。此外,她可能要告诉他那些输入的数 [公式] ,对于这些输入,函数不能正确地对 [公式] 进行分类,即 [公式] 。在选择函数的集合和 [公式] 的编号集合(需要单独编码)之间会有一个权衡。事实证明,这种权衡很好地映射到统计学习理论中的标准VC边界。我们可以想象将其推广到多任务环境中:假设我们有多个数据集,从相似但不相同的SCM中采样。如果SCMs共享大部分组件,那么我们可以通过对SCMs中的函数进行编码来压缩多个数据集(从多个SCMs中取样),并且我们有理由相信,正确的结构(在两个变量的情况下,这相当于正确的因果方向)应该是最紧凑的结构,因为它将是一个许多函数在数据集之间共享的结构,因此只需要编码一次。

强化学习 Reinforcement Learning

将统计学习转向因果学习的方案与机器学习的一个子领域--强化学习(RL)有关。RL(过去曾)被认为是在真实世界高维数据表现相对薄弱,原因之一是与监督学习中的标签信息相比,强化信号形式的反馈相对稀疏。虽然DeepQ[9](用强化学习玩老式ATARI游戏)取得了相当惊人的结果,然而与拟态智能相比,它仍然存在很大的弱点。从问题来看,存在两个主要问题:

问题1:为什么原版高维ATARI游戏(高像素)的RL比降维版(低像素)更难?对于人类来说,降低游戏画面的分辨率会让问题变得更难,然而这恰恰是为了让DeepQ系统更高效工作。动物和人类或对像素进行分组,从而识别物体。因此,这个问题与什么是对象的问题有关,它不仅涉及到感知,还涉及到我们如何与世界互动。我们可以拿起一个对象,但不能拿起半个对象。因此,对象也对应着可以单独介入或操作的模块结构。物体是由其在转化下的行为来定义的,这一观点不仅在心理学上,而且在数学上也是一个深刻的观点。

问题2:如果我们将训练数据重新排列组合(游戏回放录像),为什么RL更容易进行学习?当一个代理在世界中移动时,它会影响它能看到的数据种类,因此统计数据会随着时间的推移而改变。这违反了 IID 假设,如前所述,DeepQ 代理会对过去的数据进行存储和再训练(作者将这一过程比作做梦),以便能够采用标准的 IID 函数学习技术。然而,时间序列包含了动画智能使用的信息。信息不仅包含在时间顺序中,而且还包含在统计数据的缓慢变化有效地创造了一个多域环境的事实中。多域数据已被证明有助于识别因果(因此是稳健的)特征,更广泛地在寻找因果结构时去寻找其中的不变量。这可以使RL代理在他们的模型中找到稳健的成分,这些成分很可能泛化到状态空间的其他部分。一种方法是采用基于模型的RL,使用SCMs,这种方法可以帮助解决RL中的混杂问题,其中时间变化和时间不变的未观察到的混杂物会影响行动和奖励。在这样的方法中,非稳态性将是一个特征而不是一个bug,代理将积极寻找与已知区域不同的区域,以挑战他们现有的模型,并了解哪些组件是稳健的。这种搜索可以被视为并可能被分析为一种内在动机的形式,这是一个与伦理学中的潜伏学习相关的概念,在RL中已经获得了关注。与机器学习主流相比,RL更接近因果关系研究,因为它会有效地直接估计做某件事情的概率

最后,因果学习中一个大的开放领域是与动态的联系。虽然我们可能天真地认为因果关系总是与时间有关,但大多数现有的因果模型并没有(也不需要)谈论时间。例如,回到我们关于海拔和温度的例子,有一个潜在的时间物理过程,确保高处往往更冷。在所涉及的粒子的微观运动方程层面上,有一个清晰的因果结构(如上所述,一个微分方程确切地规定了哪些过去的值会影响到当前的值) 。然而,当我们谈论海拔与温度之间的依赖性或因果关系时,我们不需担心这种时间结构的细节--我们被赋予了一个没有时间出现的数据集,我们可以推理出如果我们对温度或高度进行干预,这个数据集会是怎样的。思考如何在这些不同层次的描述之间建立桥梁是很有趣的。在推导SCM方面已经取得了一些进展,这些SCM描述了一个处于平衡状态的耦合系统的干预行为。简单的SCM在一般情况下应该是可推导的。

因果表征学习 (Causal Representation Learning)

传统的因果发现和推理假设的单位是由因果图连接的变量。然而,真实世界的观察结果通常一开始就没有这些结构化单位。通过因果模型定义相关的对象或变量,相当于对是世界更详细的模型进行粗粒度处理。在适当的条件下,结构模型可以由微观模型的粗粒度产生,包括微观结构方程模型、普通微分方程和时间聚合的时间序列。尽管经济学、医学或心理学中的每一个因果模型都使用了更基本概念的抽象变量,但要说明粗粒度变量接纳具有明确干预措施的因果模型的一般条件是很有挑战性的。

构建识别和接纳因果模型的合适单元的任务对人类和机器智能来说都是一个挑战,但它与现代机器学习的一般目标相一致,即为数据学习有意义的表征,其中有意义可以意味着稳健、可转移、可解释、可解释或公平。为了将结构性因果建模公式1和表征学习结合起来,我们应该努力将SCM嵌入到更大的机器学习模型中,这些模型的输入和输出可能是高维的、非结构化的,但其内部运作至少部分受SCM的支配。这样做的一个方法是将未解释的变量实现为生成式模型中的(潜在)噪声变量。此外,在SCM和现代生成模型之间有一种天然的联系:它们都使用了重参数化技巧(reparametrization trick)。包括将期望的随机性作为模型的(外生)输入(在SCM中,这些是未解释的变量)。

学习可迁移机制 Learning transferable mechanisms

复杂世界中的人工或自然代理面对的是有限的资源。这涉及到训练数据,我们只有有限的数据用于每个单独的任务/领域,因此需要找到汇集/再利用数据的方法,这与目前人类完成的大规模标签工作的行业实践形成鲜明对比。这也涉及到计算资源:动物的大脑大小有限制,进化神经科学知道许多大脑区域被重新利用的例子。随着ML方法被嵌入到可能由电池供电的(小型)物理设备中,对尺寸和能量的类似约束也适用。因此,在现实世界中稳健地解决一系列问题的未来人工智能模型很可能需要重用组件,这就要求组件在任务和环境中是稳健的。一个优雅的方法是采用模块化结构,反映世界中相应的模块化。换句话说,如果世界确实是模块化的,即世界的不同组件在一系列环境、任务和设置中发挥作用,那么选择模型应采用相应的模块将是谨慎的。例如,如果自然光照的变化(太阳、云层等的位置)意味着视觉环境可以出现在跨越几个数量级的亮度条件下,那么我们神经系统中的视觉处理算法就应该采用能够剔除这些光照变化的方法,而不是为每个光照条件建立单独的人脸识别器集。如果我们的大脑通过增益控制机制来补偿光照变化,那么这个机制本身不需要与带来亮度差异的物理机制有任何关系。但是,它将在模块化结构中扮演一个与物理机制在世界模块化结构中扮演的角色相对应的角色。这可能会产生一种偏向于模型,这些模型表现出某种形式的结构同构,这将是相当耐人寻味的,因为我们的大脑最终做的只是将神经元信号转化为其他神经元信号,我们并无法直接认识世界。

学习这类模型的一个合理的归纳偏向是寻找独立的因果机制,竞争性训练可以在其中发挥作用:对于模式识别任务,学习包含独立机制的因果模型有助于在实质上不同的领域之间转移模块。在这项工作中,手写字符被一组未知机制扭曲,包括翻译、噪声和对比度反转。一个神经网络试图通过一组模块来撤销这些转换,随着时间的推移,这些模块分别专注于一种机制。对于任何输入,每个模块都试图产生一个修正的输出,并使用一个判别器来判断哪个模块表现最好。获胜的模块通过梯度下降法进行训练,进一步提高其在该输入上的性能。研究表明,最终的系统已经学会了翻译、反转或去噪等机制,而且这些机制也可以转移到其他分布的数据上。更进一步,如果将一组动态模块嵌入到循环神经网络中,由所谓的注意力机制协调,这将允许学习模块,其动态在大部分时间内独立运行,但偶尔会相互产生影响。

学习无联系表征 Learning dise[公式]ntangled representations

我们在之前章节中已讨论过ICM原理,它既意味着公式1中SCM噪声项具有独立性,因此也意味着它可以离散表示为:

公式11: [公式]

并且,条件 [公式] 是独立可操作并且在相关问题集合下保持不变。假设我们试图从数据中使用独立的机制(公式11)重建这样一个分离的表征,但因果变量 [公式] 并不是先验地提供给我们的,相反,我们得到了(可能是高维的) [公式](我们可以把 [公式] 看作是具有 [公式] 像素的图像),我们应该从中构造因果变量 [公式] 以及机制,从而把公式1转化为:

公式12: [公式]

从而进行的因果关系建模。为此,作为第一步,我们可以用编码器 [公式][公式] 到和未解释的噪声变量 [公式] 组成。下一步是由结构赋值 [公式] 确定的映射 [公式] 。最后,我们应用一个解码器 [公式] 。如果n足够大,系统可以使用重建误差进行训练,在观察到的图像上满足 [公式] 。为了使其具有因果性,我们使用ICM原则,即我们应该使 [公式] 在统计上独立,并且我们应该使机制独立。这可以通过确保它们在不同的问题中仍然保持本质不变,或者它们可以独立地被干预来实现。这样,对于图像的对抗性神经网络就会产生因果结构,从而更加具有鲁棒性。

虽然我们理想的是操纵因果变量或机制,但我们讨论的是对潜伏噪声变量进行干预的特殊情况。干预的一种方法是用从其他输入图像中计算出的相应值替换噪声变量,或叫做像素杂交(hybridization)。在极端情况下,我们可以杂交潜向量,其中每个分量都是从另一个训练实例中计算出来的。对于一个IID训练集,这些潜向量具有统计上独立的分量。

在这样的架构中,编码器是一个反因果映射,它可以识别或重建世界中的因果驱动因素。这些因果驱动因素可以制定可转移的机制(例如,跨任务)。解码器建立了低维的潜伏表征(驱动因果模型的噪声)和高维世界之间的联系;这部分构成了一个因果生成的图像模型。ICM假设意味着,如果潜在表征重构了(驱动真正因果变量的噪声),那么对这些噪声(以及由其驱动的机制)的干预是允许的,并促成图像数据的有效生成。

Learning interventional world models and reasoning 学习干预世界模型和推理

现代表征学习擅长学习数据的表征,以保存相关的统计属性。然而,它这样做并没有考虑到变量的因果属性,也就是说,它并不关心其分析或重建的变量的干预属性。未来,因果性将发挥重要作用,将表征学习提升到一个新的水平,超越统计依赖结构的表征,走向支持干预、规划和推理的模型,实现康拉德-洛伦兹(Konrad Lorenz)关于思维是在想象空间中行动的概念。这最终需要对自己的行动进行反思并设想替代方案的能力(自由意志幻觉)自我意识的生物功能可能与需要一个变量在一个人的洛伦兹想象空间中代表自己有关,而自由意志则可能是就该变量所采取的行动进行交流的一种手段,这对社会和文化学习至关重要,虽然这个话题是人类智能的核心,但还没有进入机器学习的研究阶段。


我们也许正处在变革前夜,未来很长,未来也很近。我意识到,我们已经走入了一个全新的领域,计算机科学最终将与哲学问题殊途同归,我一直以为对于一个领域的研究只需要在这个领域里深耕,但往往很多突破性的进展都存在在不同学科的交叉领域内。令人细思恐极的是,我们大脑内的信息处理机制也不过是电信号之间的转换,在这个基础上,我们与计算机并无二致,也许计算机最后能够模拟出带有智能的自我意志,而我们,正是处于自由意志幻觉之中。

最后再重新引用一下Judea Pearl的那句话吧。

什么是智慧?
“Faking it, is having it. …Faking intelligence, is intelligence, because it’s not easy to fake. It’s very hard to fake…and you can only fake it if you have it.” - Judea Pearl
能够伪造,就是代表拥有... 伪造的智慧,就是智慧,因为它非常不容易伪装,很难伪造......当只有你拥有它的时候,才能伪造它。- Judea Pearl

我们现在感觉也许未来是这样的

The Far Future—Coming Soon...

谢谢各位阅读,欢迎各位交流

  1. ^Judea Pearl http://bayes.cs.ucla.edu/jp_home.html
  2. ^https://www.is.mpg.de/~bs
  3. ^https://arxiv.org/abs/1911.10500
  4. ^信息落入黑洞会怎样?根据无发猜想,从外部看到的黑洞只有质量、角动量以及电荷三个不能变为电磁辐射的守恒量,其他的信息全都丧失了
  5. ^质量似乎扮演着两种根本不同的角色(惯性和引力),直到爱因斯坦在广义相对论中提供了更深层次的联系。值得注意的是,因果关系在统计互信息的对称概念基础上引入了一层复杂性。在讨论源编码和信道编码时,香农(1959)说:"我们可以进一步追究这种二元性。这种二元性可以进一步探讨,它与过去和未来的二元性以及控制和知识的概念有关。因此,我们可能有过去的知识,但不能控制它;我们可能控制未来,但没有知识。根据Kierkegaard的观点,生活只能被向后理解;但我们也只能向前生活。
  6. ^https://www.nature.com/articles/nature14236
  7. ^https://zh.wikipedia.org/wiki/%E6%9F%AF%E8%A5%BF-%E5%88%A9%E6%99%AE%E5%B8%8C%E8%8C%A8%E5%AE%9A%E7%90%86
  8. ^早些年, 美国陆军制定了一项计划,通过神经网络能够以100%的准确度将美国坦克与俄罗斯坦克区分开。直到后来分析人员才意识到,美国的坦克是在晴天拍摄的,而俄罗斯的坦克是在阴天拍摄的。
  9. ^https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK