从认知学到进化论，详述强化学习两大最新突破

iAvEzmM.jpg!web

大数据文摘出品

编译：李雷、钱天培

深层强化学习（deep RL）近年来在人工智能方面取得了令人瞩目的进步，在Atari游戏、围棋及无限制扑克等领域战胜了人类。

通过将表征学习与奖励驱动行为相结合，深层强化学习又引发了心理学和神经科学领域的诸多讨论。

不过，深度强化学习过程往往需要大量的训练数据。正因如此，多数人认为这些算法可能与人类学习有着本质的区别。

J3I32e6.jpg!web

事实上，这种担忧只出现在深度强化学习技术的早期阶段。随后的AI研究工作已使deep RL系统能更快速有效地学习。

这些AI研究中有两个特别有趣又有前景的技术，分别是情景记忆（对特定事件的记忆，episodic memory）和元学习（学会如何学习，meta-learning）。

今天，我们就会着重介绍这两种新技术——它们或将为强化学习带来重要变革。

作为AI技术，利用了情景记忆和元学习的deep RL方法也可以应用于心理学和神经科学，尤其是这些技术隐含的关于快速和慢速学习模式之间基本联系。

强大但低效：第一波深度强化学习浪潮

在过去的几年里，人工智能（AI）研究取得了革命性的进展，神经网络或“深度学习”方法的再次兴起使图像识别、自然语言处理以及许多其他领域产生突破。这些发展引起了心理学家、心理语言学家和神经科学家的兴趣，他们对人工智能的发展是否会带来有关人类认知和脑功能的新假说感到好奇。

EjeMJjN.jpg!web

从这个角度来看，人工智能研究的一个特别吸引人的地方就是深度强化学习（deep RL）。deep RL将神经网络建模与强化学习结合起来，这是一套以奖惩而非明确指令驱动学习的方法。经过数十年的空想之后，deep RL在过去的5年里已经成为人工智能研究竞争最激烈的领域之一，在视频游戏、扑克、多人赛和复杂的棋盘游戏（包括围棋和国际象棋）等方面的表现都超越了人类。

深度强化学习

强化学习（RL）的焦点集中在学习行为策略的问题上，即从状态或情境到行为的映射，这使得长期奖励的累积最大化。简单情况下，这种策略可以表示为列举了状态和行为的查找表。而在复杂情况下，则需要用参数化函数来间接地表达策略。早期（上世纪90年代）使用多层（或深层）神经网络来实现，但在整合深层神经网络和RL上遇到了困难。直到2015年，deep RL在复杂领域（如Atari视频游戏）的突破，以及随之而来在改进和扩展deep RL方面的快速发展，使其可以应用于复杂任务中，比如围棋。

作为AI技术，deep RL似乎与心理学和神经科学有着特别的渊源。deep RL的学习驱动机制最初是受到动物训练研究的启发，并且这种机制被认为与基于奖励（产生多巴胺）的学习神经机制密切相关。同时，deep RL利用神经网络来学习支持泛化和转移的强大表征，这一点与生物大脑的关键能力极为相似。有鉴于此，deep RL似乎为研究人类/动物学习的人员在行为和神经科学上提供了丰富的想法和假设。事实上，研究人员已开始注意到这一点。

不过，第一波deep RL研究也引发了某些警示。首先，deep RL系统的学习方式人类完全不同。有人认为，这种差异表现为人类学习与deep RL的采样效率不同。

采样效率是指学习系统达到任何选定目标性能水平所需的数据量。在这一指标上，第一波deep RL系统确实与人类学习者有着本质区别。例如，为了在Atari视频游戏或国际象棋等任务中获得专业级别的表现，deep RL系统的训练数据需要比人类专业选手多几个数量级。简而言之，至少在最初的系统中，deep RL训练速度太慢，无法生成人类学习的合理模型。

但很快，deep RL研究中发生了重大创新，这些创新减少了对训练数据量的要求，使得deep RL的采样效率得到了显著提升，因此可以生成人类学习模型，这为心理学和神经科学的研究找到新的出发点。

本文中，我们主要考虑两种提升样本效率的关键方法：episodic deep RL（情景式deep RL）和meta-RL（元强化学习）。我们研究了这些技术如何实现快速deep RL，及其对心理学和神经科学的潜在影响。

deep RL慢的原因

快速RL技术关键出发点是搞清楚为什么初始的deep RL方法速度如此慢，样本效率如此低下。在这里，我们讲两个主要原因。在本文的最后，我们将回过头来研究这两个原因之间的联系。

第一个原因是增量参数调整，也可以被理解为梯度下降算法所带来的局限性。早期deep RL方法（在人工智能研究中仍然被广泛使用）采用梯度下降来描述从感知输入到动作输出的深度神经网络曲线。这种形式的学习过程中所做的调整必须很小，以便最大限度地泛化并避免覆盖之前的学习效果（有时被称为“灾难性干扰”）。这种对小步长调整的需求是早期deep RL方法速度慢的原因之一。

第二个原因是弱感应偏差。学习理论的一个基本信条是“偏差-方差权衡”，这在任何学习过程中都存在。归纳偏置(inductive bias)是指机器学习算法在学习过程中对某种类型假设的偏好。学习过程对学习模式的初始假设越强（即学习过程的初始归纳偏置越强），完成学习所需的数据就越少（假设初始归纳偏置与数据中的相符）。弱归纳偏置的学习过程可以掌握更广泛的模式（更大的方差），但样本效率通常会降低。实际上，强归纳偏置（对输入数据仅考虑范围窄的假设）才是可以快速学习的原因。更重要的是，通用神经网络是极低偏置的学习系统：它们有许多参数（不同权重），需要适应各种类型的数据。这意味着早期deep RL模型中采用的通用神经网络往往是样本效率奇低的，需要大量数据来学习。

以上两个因素 - 增量参数调整和弱感应偏差 - 共同造成了早期deep RL模型速度慢的事实。然而，随后的研究表明，这两个因素都可以减轻，从而允许deep RL以更加样本有效的方式进行学习。在下文中，我们考虑两种特定技术，一种解决增量参数调整问题，另一种解决弱感应偏差问题。除了它们在AI领域的影响之外，这两种AI技术都与心理学和神经科学有着明显的联系，我们将详细说明。

Episodic Deep RL：通过情景记忆快速学习

如果增量参数调整是deep RL速度慢的一个原因，那么一种解决方法可能是避免这种增量更新。单纯靠控制梯度下降来优化学习率会导致灾难性干扰问题。

最近的研究表明，另一种方法也可以实现相同的目标，即保留过去事件的明确记录，并直接将此记录用作制定新决策的参考点。这种方法称为episodic RL，与机器学习中的“非参数”（不对目标函数的形式作出强烈假设）方法相似，如K近邻算法，也类似于心理学中学习理论的“实例”或“范例”教学。

当遇到新情况且必须决定采取何种行动时，程序将当前情况的内部表示与过去情况的存储表示进行比较。根据与当前最相似的过去情况，选择相关联的动作。当使用多层神经网络计算内部状态表示时，我们将得到的算法称为“episodic deep RL”。

episodic RL的成功取决于用于计算状态相似度的状态表示。后来的研究表明，通过使用梯度下降学习来形成这些状态表示可以改善性能。这些结果解释了episodic RL在Atari学习环境57项游戏中的强大性能和高数据效率，展示了结合慢（表示）学习和快速（估算）学习的好处。

mYziaaN.jpg!web

在episodic deep RL中，与标准增量方法不同，可以立即利用每个经验事件获得的信息来指导行为。然而，episodic deep RL能够消除早期deep RL慢的因素，进行快速学习，主要取决于其减缓了增量学习。这种增量学习是对连接权重的渐进学习，允许系统对每个新观察到的情况形成有用的内部表示或嵌入（embeddings）。这些表示的格式通过经验学习获得，使用相同类型的增量参数更新（即标准deep RL的根基）。最终，通过这种较慢的学习形式提升了episodic deep RL的速度。也就是说，通过慢学习实现了快速学习。

快速学习对慢学习的依赖并非巧合。正如我们将在下面论述的那样，它是一个基本原则，不仅适用于AI，也适用于心理学和神经科学。然而，在考虑这个一般性观点之前，我们将研究它在第二个用于快速deep RL技术 - meta-RL中的作用。

Meta-RL：通过学习如何学习来加速deep RL

如前所述，标准deep RL速度慢，除了增量更新，还有弱感应偏差。正如在偏差 - 方差权衡的概念中所描述的，快速学习要求对需要学习的模式结构要有一组合理数量的假设。假设设置得越细（窄），学习速度就越快。然而，正如前面所提到的，有一个问题：一个狭义的假设集只有在它包含正确的假设时才会提高学习速度。虽然强归纳偏置可以加速学习，但只有学习者采用的特定偏置恰好与学习材料相符合时才行。因此，这里出现了一个新的学习问题：学习者如何知道采用什么归纳偏置？

看到这个问题，很容易想到的答案是借鉴过去的经验。显然，这就是我们日常生活中的情形。例如，学习使用新的智能手机。在这种情况下，一个人过去使用智能手机和其他相关设备的经验可以用来假设新手机应该如何工作，也可以用来指导摸索手机操作。这些初始假设对应于偏差 - 方差权衡中的“偏差”，它们会影响快速学习能力。没有这些初始偏置的学习者（即具有更高的“方差”）会考虑更广泛的关于手机操作的假设，但这样就会牺牲学习速度。

利用过去的经验来加速新学习在机器学习中被称为元学习（meta-learning）。其实这个想法源于心理学，被称为“学习如何学习”。这个术语首次出现在一篇心理学研究过论文中，作者Harlow给出了一个可以很好体现这个术语的实验。在实验里，一群猴子面前放着两个它们不熟悉的物体，并允许它们拿起其中一个。

物体下面可能是食物奖励，也可能是空的。然后将两个物体再次放在猴子面前，但是位置可能左右颠倒，重复该过程6轮。然后用两个新的，猴子不熟悉的物体，并重复之前的试验6次。重复更换物体，依此类推。随着测试次数增加，猴子们能发现一个简单规则：总是有一种物体下面有食物而另一种物体没有，不管这种物体放左还是放右。因此当给它们一对新物体时，猴子只要试一次就知道应该选哪个了。这是一个关于学习如何学习的简单生动的例子。

现在回到机器学习，新的研究工作表明怎样利用元学习来加速深度学习，已经有很多方法可以实现这个思路。其中一种方法与神经科学和心理学有着特殊的联系。在这个方法里，循环神经网络在一系列相互关联的RL任务上进行训练。

网络中的权重调整非常缓慢，因此可以反应出任务中共性的内容，但不能快速更改以用于任何单个任务的解决方案。在这种情况下，循环网络的活动状态可以实现自己的RL算法，该算法基于过去任务产生的知识来快速解决每个新任务。也就是说，一个RL算法产生另一个，因此被命名为'meta-RL'。

A7ZV32r.jpg!web

与episodic deep RL一样，meta-RL也与快速和慢速学习之间的密切联系有关。循环网络的权重在任务之间缓慢更新，允许任务间的共性信息“内置”到循环网络的状态中。由此产生的网络状态变化实现了一种新的学习算法，可以快速解决新问题，因为慢速学习的基础过程给了它们有用的归纳偏置。这又是一次快速学习源于慢学习，并且通过慢学习实现提速。

FvMNVvM.jpg!web

Episodic Meta-RL

注意！我们上面讨论的两种技术并不相互排斥。实际上，最近的研究表明可以元学习（meta-learning）和情景控制（episodic control）整合起来，实现互补。在Episodic Meta-RL中，如前所述，元学习发生在循环神经网络中。叠加在其上的是情景记忆系统，其作用是恢复循环神经网络的活动模式。与episodic deep RL一样，情景记忆对一组过去事件进行编目，可以根据当前上下文查询这些事件。然而，Episodic Meta-RL不是将上下文与估值联系起来，而是将它们与来自循环网络的内部或隐藏单元的存储活动模式连接起来。这些模式很重要，因为通过meta-RL，它们总结了agent从与单个任务交互中学到的东西。在episodic meta-RL中，当agent遇到与过去类似的情况时，它会允许先前学习的信息影响当前策略。实际上，情景记忆允许系统识别先前遇到的任务，并检索存储的解决方案。

通过模拟“强盗决策”任务和导航任务，Ritter 等人发现episodic meta-RL，就像普通的meta-RL一样，学习强归纳偏置，从而使其能够快速解决新任务。更重要的是，当遇到过去类似的任务时，episodic meta-RL会立即检索并恢复之前生成的解决方案，从而无需重新学习。在第一次遇到新任务时，系统速度受益于meta-RL的快速性; 在其后遇到新任务时，系统速度受益于情景控制所赋予的一次性学习能力。

对神经科学和心理学的启示

正如我们在文章开始时所看到的那样，人们因为采样效率低下的问题而质疑deep RL与人类或其他动物学习的相似性。从心理学和神经科学的角度来看，episodic deep RL和meta-RL的一个重要含义是它们通过展示deep RL实际上速度不慢，从而消除了这种质疑。本文在一定程度上认为，deep RL是可以作为人类和动物学习的候选模型的。然而，除了这一点之外，episodic deep RL和meta-RL的细节也指向了心理学和神经科学中一些有趣的新假说。

首先是episodic deep RL。我们已经注意到它与经典的基于实例学习的人类记忆模型之间的有趣联系。Episodic RL为基于实例的处理如何促进奖励驱动学习提供了一个可能的解释。有趣的是，最近关于动物和人类增强学习的研究越来越认可情景记忆的潜在贡献，有证据表明状态和行动价值的估计是基于对特定的过去行动 - 结果观察的检索记忆。

再说meta-RL，它对心理学和神经科学也有值得注意的潜在影响。有研究提出了从meta-RL的元素到神经结构和功能的直接映射。一系列计算机模拟表明， meta-RL可以解释行为和神经生理学中的各种实证研究结果。

快速和慢速RL：更广泛的意义

在讨论episodic RL和meta-RL时，我们强调了“慢速”学习在实现快速、高采样效率的学习方面的作用。在meta-RL中，正如我们所看到的，缓慢且基于权重学习的作用是建立归纳偏置，这可以用于指导推理，从而快速适应新任务。而episodic RL的缓慢增量学习也是类似的。Episodic RL本质上依赖于对情景或状态之间相似性的判断。缓慢的学习形成了状态的内部表示方式，从而产生了一系列关于哪些状态最密切相关的归纳偏置。

如果更仔细地观察episodic RL，可以看出归纳偏置是学习架构的一部分。episodic RL有一种平滑原则的假设：类似的状态通常会产生类似的动作。这种归纳偏置不是用于学习，而是连接到定义episodic RL的学习系统结构中。在当前的AI术语中，这属于“架构”或“算法偏置”等情况，与meta-RL 中的“学习偏置”不同。

无论是通过学习还是通过直接手工设计架构或算法偏置来实现，目前的人工智能研究主要集中在寻找有用的归纳偏置以加快学习速度。实际上，后一种方法本身就是当前人工智能神经网络理论复苏的主要原因。卷积神经网络引发了这种复苏，它构建了一种与图像识别中的平移不变性相关的非常特定的结构偏置。然而，在过去几年中，越来越多的人工智能研究或多或少地集中在归纳偏置问题上。

站在更高的层次来看，这些技术的发展与心理学中一些长期存在的问题极为相似。正如我们已经指出的那样，归纳偏置可能通过学习获得的想法最初源于心理学，并且不时在心理学研究中被人们提到。然而，神经网络中的元学习可以提供新的应用场景来探索这种学习如何学习过程的机制和原因，尤其是在RL环境中。

心理学，特别是发展心理学，长期以来也一直认为人类存在某种内在固有的归纳偏置。然而，架构偏置的概念以及神经网络学习算法的内置偏置的概念还未得到广泛认同。目前深度学习和深度增强学习的方法都提供了一个研究工具，可能有助于心理学领域的进一步探索。

值得注意的是，虽然人工智能将通过学习获得的归纳偏置和手工“加入”的偏置做了明确区分，但在生物学背景下，两者也有更一般的共性。具体而言，人们可以将架构和算法偏置视为由进化驱动的不同学习过程产生的。在这里，进化是一种“缓慢”的学习过程，逐渐形成架构和算法偏置，从而加快终身学习速度。因此，元学习不仅在一个生命周期内发挥作用，而且在进化中也发挥作用。有趣的是，这种观点意味着进化不会选择真正的“通用”学习算法，而是选择那些利用大脑进化的特定环境中的规律性的算法。最近的机器学习更多地深入研究构建agent体系结构的方法，以及通过自然选择的进化算法构建奖励函数，这些新发展再次证明其在探索神经科学和心理学方面的意义。

结束语

deep RL研究领域的快速发展对心理学和神经科学具有极大的意义，因为它集中关注代表性学习和目标导向行为。在本文中，我们描述了最新的deep RL形式，它克服了采样效率低下的明显问题，允许deep RL “快速”工作。这些技术不仅强化了deep RL对心理学和神经科学的潜在联系，而且它们通过情景记忆和元学习等使这些潜在联系更加丰富多样。此外，deep RL的研究越来越多地为心理学和神经科学的新研究给出具体详细的指导。

正如我们所强调的那样，有关高效采样deep RL最新研究的关键意义在于，要快速学习，就必然依赖于慢速学习，这种慢速学习建立了快速学习的表征和归纳偏置。这样的计算辩证法为研究大脑中多个记忆系统及其进化起源提供了理论框架。然而，除了本文中讨论的那些，人类学习可能涉及多个交互过程，因此我们认为任何deep RL模型都需要整合所有这些才能更接近真实的人类学习。在更广泛的层面上，理解RL中快速和慢速之间的关系为心理学和神经科学提供了令人信服的依据。实际上，这可能是人工智能、神经科学和心理学协同作用的关键领域，一直以来都是认知科学所追求的。

一些值得讨论的问题

可以通过AI方法将高效采样的deep RL扩展到人类实际生活的各种场景中吗？这些方法能否产生对各种人类智慧的抽象本质？为此可能需要什么样的训练环境？

灵活且高效采样的人类学习的机制是否与人工智能中目前正在探索的机制相关？如果是这样，它们的神经实现是什么？当前的人工智能技术中的重点 - 梯度下降学习，是否会在大脑中发生，或者在某些其他机制起相同的作用？

在人类学习者所处的环境中最重要的学习归纳偏置是什么？这些偏置在多大程度上是通过进化遗传或成长过程获得的，在多大程度上是通过学习获得的？

让人类学习者如此高效的一个原因是人类是积极主动、有策略的信息搜集者。那么构建和激励人类探索的原则是什么？我们如何在AI系统中复制这些原则？

大数据文摘出品

编译：李雷、钱天培

强大但低效：第一波深度强化学习浪潮

深度强化学习

deep RL慢的原因

Episodic Deep RL：通过情景记忆快速学习

Meta-RL：通过学习如何学习来加速deep RL

Episodic Meta-RL

对神经科学和心理学的启示

快速和慢速RL：更广泛的意义

结束语

一些值得讨论的问题

Recommend

不用 root 也能压制「毒瘤」，adb 你可以这样用

BM 半年没写代码却在昨晚买下市场50%的RAM

早教机构关店幕后：一个65亿元估值的资本局

英国研究称未来小型动物将会成为主流

GitHub - xuperchain/xuperunion: A highly flexible blockchain architecture with g...

小橘猫：今天我就认定你做我主人了，快带我走吧

揭秘苹果绝密测试机构：零下40度锻造iPhone防御系统

QQ20 周年个人轨迹

神经架构搜索方法知多少

中国工程院院士倪光南谈开源：从华为身上我们到底该思考什么？ | 数博会

About Joyk