三巨头共聚AAAI：Capsule没有错，LeCun看好自监督，Bengio谈注意力

2 月 7 日，人工智能

顶会 AAAI 2020（第 34 届 AAAI 大会）已于美国纽约正式拉开序幕，本届会议将持续到 2 月 12 日结束。受疫情影响，中国大陆约有 800 名学者缺席此次会议，很多中国学者选择远程参会。

本届 AAAI 大会共收到了 8800 篇提交的论文，评审了 7737 篇，并最终接收了 1591 篇，接收率为 20.6％。其中中国投稿 3189 篇论文，共被接收 589 篇，为所有国家与地区中投稿量、接收量最多的区域。美国紧随其后，共被接收 368 篇论文（1599 篇投稿）。

ZzEVfiM.jpg!web

在大会第三天，即当地时间 9 号，AAAI 2020 举行了 2018 图灵奖得主主旨演讲与圆桌论坛，即深度学习「三座山头」分别发表了主旨演讲，并针对一些前沿问题作出讨论。

在这两个多小时中：

Geoffrey Hinton 介绍了《Stacked Capsule Autoencoders》，即一种无监督版本的 Capsule 网络，这种神经编码器能查看所有的组成部分，并用于推断跟细节的特征；
Yann LeCun 在《Self-Supervised Learning》中再次强调了自监督学习的重要性；
Yoshua Bengio 在《Deep Learning for System 2 Processing》中回顾了深度学习，并讨论了当前的局限性以及前瞻性研究方向。

在这特殊的两个小时里，我们能听到三位先驱对深度学习的理解与期望，「因为在深度学习概念与工程上的突破，并使深度学习成为计算的一个重要构成」，这正是三位先驱获得图灵奖的重要原因。

rme2ein.jpg!web

深度学习「三大巨头」演讲现场。

如下所示第一个视频，目前 AAAI 已经发布了完整的图灵奖得主演讲视频，视频录制了将近三个半小时，演讲内容大概从 1 小时候十分开始。

Nnqy2ym.jpg!web

视频地址：https://vimeo.com/390347111

三位先驱演讲核心

其实最好的方式还是亲自听听三位先驱对深度学习的深刻理解，不过因为演讲内容非常丰富，我们可以先概览一下核心内容。

Hinton：2019 年版的 Capsule 走对了

首先，Hinton 的演讲主题其实是他在去年 6 月份发表的一份研究，该论文利用局部图形之间的几何关系，从而推理目标是什么。该研究继承了之前关于胶囊网络的成果，并扩展到无监督学习任务中。

1.卷积神经网络的缺陷

Hinton 首先具体分析了传统卷积神经网络的局限性。例如视角的转换会造成 CNN 识别失败，它解析图像的方式还存在很多问题。

事实上，卷积网络并不理解图像整体与局部之间的关系，它只是尽可能描述二维空间上的图像信息。每一层卷积网络包含越来越多的上下文信息，从而描述图像不同位置到底发生了什么。

FB3AJnf.jpg!web

Hinton 表明，计算机视觉与计算机图形学应该是互为逆问题。图形学使用层级模型，该模型的空间结构由矩阵建模以表征转换关系，这种关系即整体嵌入的坐标帧（coorfinate frame）转化到每一个组成部分嵌入的坐标帧。这种采用矩阵的方法对视角的变化完全是稳健的，这种表征也能快速计算组成部分与整体之间的关系。

所以与图形学相对，采用这种类似的表征来处理 CV 中视角的变化是一种极好的方法。

2.Capsule 直观思想

一个目标可以视为一组相互联系的组成部分，它们应该是通过几何关系组织的。如果有一个系统，它能充分利用这些几何关系来识别目标，那么这种系统天生就是非常鲁棒的，因为固有的几何关系对视角而言是不变的。

根据这种直观思想，Hinton 等研究者介绍一种无监督版本的胶囊网络，其中编码器可以观察图像完整的组成部分，并用于推断目标类别。这种神经编码器可以通过解码器中的反向传播过程进行训练。

对于第一版采用 动态路由的CapsNet ，以及后面采用 EM Routing 的胶囊网络，它们都是 Hinton 等研究者的早期尝试，它们分别被 NeurIPS 2017 与 ICLR 2018 接收。在 AAAI 2020 的演讲上，Hinton 说：「忘了前面所有版本的 Capsule，它们都是有误的，2019 年这个版本是对的。」

mmMnAn3.jpg!web

Hinton 所说的 2019 版即 Stacked Capsule Autoencoders（SCAE），它采用无监督学习方式，并使用矩阵来表达整体与组成部分之间的关系。而之前判别式 Capsule 的表征方式并不一样，它采用矩阵表示组成部分与整体之间的关系。

在第一次提出CapsNet时，Geoffrey Hinton 介绍到：「Capsule 是一组神经元，其输入输出向量表示特定实体类型的实例化参数（即特定物体、概念实体等出现的概率与某些属性）。我们使用输入输出向量的长度表征实体存在的概率，向量的方向表示实例化参数（即实体的某些图形属性）。同一层级的 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测一致时（本论文使用动态路由使预测一致），更高级别的 capsule 将被激活。」

而现在到了 2019 年版 Capsule，他表示 Capsule 为一组用来表征相似形状或组成部分的神经元。如下两个正方形与椭圆组成的图形为一个 capsule 单元：

3IvqqiB.jpg!web

3. 新模型核心概念

Hinton 在演讲中表示：「读懂了下图这张 PPT，就读懂了整个模型。」对于 SCAE 来说，它主要包含两个阶段，第一阶段 Part Capsule Autoencoder (PCAE) 会将图像分割为组成部分，并推断出它们的姿态（Pose）。

第二阶段 Object Capsule Autoencoder (OCAE) 会尝试组织挖掘的组成部分、前面推断出来的姿态，并构建更小的一组目标。这种目标能通过不同组成部分自己的混合预测来构建对应的姿态。

fa2aamJ.jpg!web

Hinton 等研究者在未标注数据上训练 object-capsules 和 part-capsules，并聚类 object capsule 中的向量，实验结果表明这种无监督胶囊网络具有非常好的属性。Hinton 在演讲的后面介绍了 SCAE 的效果及可视化，感兴趣的读者也可以具体看看论文。

fq6Nr2r.jpg!web

无监督胶囊网络通过相互独立的 object capsule 来解释不同的目标类别。 选自 arXiv: 1906.06818。

最后，Hinton 对目前的 Capsule 研究做出总结，尽管直接学习组成部分之间的几何关系非常有吸引力，但我们还需要克服很多阻力。例如，推断 high-level capsule 哪一个是存在的，它们的姿态又是什么样的，这样的问题比较困难。我们也许可以使用 Transformer 帮助解决这个问题。

77by6vE.jpg!web

LeCun: SSL 才是未来

首先解释他的理解什么是深度学习，并简单介绍了下监督学习及强化学习。LeCun 表示利用监督学习方法确实可以做一些有效的工作，不过会要求大量标记后的样本及数据，当有足够的数据时，监督式学习表现出的效果会非常好。而另一方面的强化学习，虽然在游戏中和模拟中的效果很好，如果要应用至现实生活中还需要大量的试验否则后果会非常严重。并提出了他所认为的目前深度学习三大挑战：

3Y7zaen.jpg!web

当标签数据充足时，针对于感知的监督学习才会有不错的效果
当实验成本低廉的时候（如在模拟实验中）强化学习才可以有较好的效果
以及在当下整个社区都在推进的三个问题：尝试使用更少的标记样本或者更少的实验去训练，尝试学会推理并超越简单的感知计算，尝试规划复杂的动作序列。

而对于 LeCun 最倾向的自监督学习，他则表示自监督学习相当于在填补空白，就目前来说自监督学习在自然语言处理领域表现的非常不错，而在图像识别及图像理解方面表现的效果却是一般。（51：54 补充个原因）

NNBNVvV.jpg!web

相比于强化学习，监督式学习以及自监督学习，LeCun 认为强化学习属于弱反馈，监督学习虽然可以预测一个类别或数字但是属于中等反馈，而自监督学习可预测其输入的任何一部分（如预测视频中未来的画面）则可以产生大量反馈，从而应用广泛。

其次主要举例介绍了基于能量的建模，其核心目的是能够学会处理不确定性的同时合理避开可能性，并详细分享了塑造能量函数的七种策略应该是什么样的。

另一方面的案例则是基于自动驾驶方向，自动驾驶一个（随机）正向模型的学习，其本质是学会预测周围的人都会做什么。通过使用自监督模型进行规划及学习，使用前向模型去了解如何和驾驶，比如训练前向模型用于预测每辆车相对位于中央位置车的运动情况等。

最后，LeCun 表示 自监督学习（SSL）才是未来发展的趋势 ，它能在各种任务中学习到分层特征，以及现实生活中可使用的海量数据作为资源。但并不是尽善尽美，同时也面临处理预测中不确定性的挑战，比如之前的案例基于能源的模型。

JJNFNzZ.jpg!web

而针对基于向量表示和能量最小化的推理而言，目前还有大量的工作要去完善。LeCun 只列举了两个例子，具有潜变量基于能量的模型，以及他之前一再提及的用向量代替符号，用连续函数代替逻辑。而针对如何学习行动规划的等级表示法，他表示目前也是毫无头绪。

Bengio：注意力机制是核心

目前深度学习是什么样的，如果要获得更强的学习能力，未来的发展方向又是什么样的？Yoshua Bengio 首先就表示，根据「没有免费午餐定理」，并不存在完全通用的智能，归纳偏置与先验知识在智能系统中都是需要的。目前深度学习已经整合了人类启发的先验知识，但更强的先验知识对于样本复杂度是指数级的收益。

Bengio 首先介绍了系统 1 与系统 2 之间的差别，目前深度学习正处于系统 1，它在感知层面上已经有非常不错的效果。正如之前的一条经验法则，如果人类能在几秒内做出判断的问题，那么机器学习也有潜力来解决。而对于系统 2，它需要更多的逻辑推断、规划，它正是深度学习未来应该解决的问题。

Evuyaqy.jpg!web

对于系统 2「有意识地运算」，Bengio 表明最核心的组成部分之一就是注意力机制，它在同一时间内会关注某些最为重要的神经元。完全采用注意力机制的 Transformer，也是目前 NLP 最强大的模型。

Bengio 表明，注意力机制其实就像动态连接，接受者会受到选定的值。注意力机制也可以追溯到认知神经科学，选定的值会传播到其它神经元，并储存在短期记忆中。

MnENRvb.jpg!web

后续，Bengio 还介绍了很多系统 2 中的深度学习，它们应该是什么样的。例如对于挖掘因果与影响关系，其实它类似于如何分解一个联合分布。

最后，对于演讲中给出的众多假设，Bengio 说，这是他们实验室对真实世界的理解，如果它们能够嵌入现有的机器学习系统，那么就能构建一些非常强力的能力，这些能力能带领深度学习进入系统 2。

fuaQz2u.jpg!web

三巨头圆桌讨论

在三位深度学习先驱介绍了自己所思所想之后，还有半个小时的圆桌论坛，读者们可以通过原视频看看大佬之间的对话。

虽然目前深度学习在众多任务上取得了成功，但它同时也饱受质疑。不过三位先驱都认为通过一些强有力的工具，深度学习能以更合理的方式学习更高级的能力。

3Eveqem.jpg!web

三位先驱的演讲都特别关注无监督或者自监督学习，对于 Hinton 来说，Capsule 这个概念在无监督学习上找到了最合适发展方式；LeCun 则一直提倡采用自监督学习，它类似于降噪自编码器，利用完整数据监督不完整数据的修复。Bengio 从「系统 2」出发，探讨先验知识如何降低数据的需求。

在圆桌会上，经常会有一些非常有意思的话题，例如主持人 MIT 教授 Leslie Kaebling 说：「很多人注意到深度学习与符号 AI 有一些不同的见解，那么这两者能握手言和吗？」Hinton 打趣道，这两个学派其实是有着悠久的历史。

最后三位先驱还讨论了深度学习这个研究领域的结构，以及未来的发展方向。Bengio 注意到现在年轻研究者发表论文的机会，要比他读书时多得多。但对于更多的研究者，他们应该将眼光放远一点，关注更多的长期问题。

Hinton 接着说：「如果我们对某个过程有新想法，那么会对这个主题进行短期的研究，只要有一些进步，就可以发一篇论文。这就像我们拿到了一本数独题集，我们会快速浏览一遍，然后找到那些容易解决的题目，并填上数独。这对其它研究者来说也是不好的体验。」

深度学习正在快速发展，每一年模型与研究都是新面貌。三位先驱的思想与观点，也许正指明了未来的发展方向。

三位先驱演讲核心

Hinton：2019 年版的 Capsule 走对了

LeCun: SSL 才是未来

Bengio：注意力机制是核心

三巨头圆桌讨论

Recommend

觉得日本做了一次很厉害的营销

疯狂的赌徒-15康美债122354中的个人合格投资者大户

11分钟完成审批，国家卫健委要求大力发展，互联网诊疗服务在如何支撑疫情防控需求？

下沉市场疫情“大考”，餐饮老板：“我太南了”

疫情下的手机行业：前途未卜，生死难料

请教 iptables 防火墙及路由配置的打通两地局域网的问题

The Economics of Clean Code

freenas vs unraid vs esxi vs openmediavault etc

强强联手摩根大通区块链项目Quorum将与ConsenSys合并

A web interface for managing your Redis instance

About Joyk