无需任何神经网络！Uber AI 在 Atari 游戏蒙特祖玛的复仇中表现远超人类

AI 前线导读：玩过《蒙特祖玛的复仇》（Montezuma’s Revenge）这款视频游戏的玩家可能知道它有多难，更不用说对 AI 来说有多难。这款游戏光是第一关就有 24 个布满了陷阱、绳索、梯子、敌人和隐藏钥匙的房间。最近，来自谷歌 DeepMind 的 OpenAI 和其他公司的研究人员设法让 AI 系统取得了令人瞩目的成绩，但在本周，Uber 的最新研究更是让这个标准再度提高。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

在 Uber 的博客文章中（论文即将发表），Uber 的 AI 科学家介绍了 Go-Explore，这是一个被称为质量多样性的 AI 模型，能够在《蒙特祖玛的复仇》中获得超过 2,000,000 的最高分，平均分数超过 400,000（目前最先进的模型平均分和最高分分别为 10,070 和 17,500）。此外，在测试中，该模型能够“稳定地”闯过第 159 关。

此外，同样值得注意的是，研究人员声称，Go-Explore 是第一个在 Atari 2600 游戏《陷阱》中获得高于 0-21,000 分的人工智能系统，“远远超过”人类的平均表现。

“所有人都说，Go-Explore 将《蒙特祖玛的复仇》和《陷阱》的最好成绩提升了两个数量级，”Uber 团队写道。 “它不需要人类演示也可以超过《蒙特祖玛的复仇》模仿学习算法的最高性能，后者必须要通过人类的演示才能得到解决方案…Go-Explore 与其他深度强化学习算法完全不同。我们认为它可以在各种重要的、具有挑战性的问题上取得快速进展，特别是机器人技术。”

NJRZfqn.png!web

Go-Explore 在《蒙特祖玛的复仇》中的进步。图片来源：Uber

大多数 AI 模型发现《蒙特祖玛的复仇》难以克服的问题在于“少量的奖励”；AI 模型闯过一关需要通过为数不多的反馈来学习复杂的任务。更复杂的是，游戏给出的反馈很少并通常具有欺骗性，这意味着它会鼓励 AI 在短期内最大限度地获得奖励，而不是朝着全局目标努力（例如，反复击中敌人而不是爬上绳索靠近出口）。

解决稀疏奖励问题的一种方法是增加对探索行为的奖励，也被称为“内在动机”（IM）。但即便是使用 IM 的模型也在《蒙特祖玛的复仇》和《陷阱》中步履维艰——研究人员认为，这归咎于一种被称为“分离效应”（*detachment*）的现象。算法基本上会“忘记”它们之前到过但有希望通向新的地点或状态的区域，因此不会返回这些地方继续探索。结果，AI 代理会停止探索，或者不再探索之前已到达过区域的附近。

“想象一下 AI 代理在两个迷宫的入口处。它可能随机开始探索西边的迷宫，而 IM 可能会让它探索一半，”研究人员写道。“但从某一个时刻开始，AI 代理可能开始探索东边的迷宫，并获得很多奖励。在完全探索完东边的迷宫之后，它会记不清之前在西边的迷宫里探索到的有希望（到达新的地方或状态）的边界...... 更糟糕的是，它已经探索过通往西部迷宫的道路，所以就没有（或很少）内在动机去再去探索一番。”

vQBfiuV.png!web

“分离效应”的演示，其中绿色区域表示内在奖励，白色区域表示没有内在奖励，紫色区域表示算法正在探索的位置。图片来源：Uber

对此，研究人员提出了一个分为两阶段的解决方案：探索和强化。

探索阶段

在探索阶段，Go-Explore 建立了不同游戏状态的存档（单元），以及各种轨迹或分数。它选择、返回并探索一个单元，在所有它访问过的单元中，如果新的轨迹更好（即得分更高），则变换轨迹。

上述单元仅仅是下采样的游戏帧——由 11*8 个 8 像素强度的灰度图像组成，帧数不足以保证进一步探索合并。

zuAV3mA.png!web

单元演示。图源：Uber

探索阶段具有许多优势。由于有了上述存档，Go-Explore 能够记住并返回“有前途”的区域进行探索。通过在探索之前首先返回到单元（加载游戏状态），避免了 AI 过度探索容易到达的地方。因为 Go-Explore 能够访问所有可达状态，研究人员称它不太容易受到欺骗性奖励函数的影响。

另一个因素进一步提高了 Go-Explore 的稳健性：领域知识。该模型可以输入它正在学习的单元的信息，在《蒙特祖玛的复仇》中包括直接从 x 和 y 位置等像素提取的统计数据，当前房间和获得钥匙的数量。

强化阶段

强化阶段起到防御噪音的作用。如果 Go-Explore 的解决方案对噪声不稳健，它会使深度神经网络更稳健——使用模仿学习算法，模拟人类大脑中神经元行为的数学函数层。

AJb6RjM.png!web

Go-Explore 算法的流程。图片来源：Uber

测试结果

在测试中，Go-Explore 在《蒙特祖玛的复仇》中到达的房间数平均是 37，通过第一关的几率为 65%。这相比之前的最高水平还要更好，此前探索的房间数平均为 22。

3aqMNjf.png!web

Go-Explore 找到的房间数量。图片来源：Uber

目前，Go-Explore 采用了一种称为模仿学习的技术，它可以从人类演示中学习策略，或者在第一阶段自动生成。

100％由 Go-Explore 生成的策略可以帮助它闯过《蒙特祖玛的复仇》第一关，平均得分为 35,410，超过之前的 10,070 分达三倍，略高于人类专家 34,900 分的平均水平。

在加入领域知识后，Go-Explore 的表现更加出色。它找到了 238 个房间，平均闯过 9 关。经过强化阶段后，它平均可以闯到第 29 关，平均分为 469,209。

BnaaYjR.png!web

Go-Explore 在第一阶段发现的房间数量，基于领域知识的单元表示。图片来源：Uber

研究人员写道，“Go-Explore 的最高分数远高于人类创造的世界纪录——1,219,200 分，甚至达到严格意义上的'超人类表现'。这让《蒙特祖玛的复仇》中经过人类演示解决方案的传统强化学习算法和模仿学习算法黯然失色。”

相比之下，《陷阱》需要更多的探索，奖励也更稀疏（32 个奖励分散在 255 个房间），但 Go-Explore 能够在只知道屏幕上的位置和房间号的情况下，在探索阶段探索所有 255 个房间，并得到 60,000 的分数。

通过在探索阶段中获得的轨迹，研究人员设法强化了得分超过 21,000 的轨迹，这个分数超过现有所有最先进的算法和人类的平均水平。

Uber 团队表示，未来他们将做更多的工作，让模型具有“更智能”的探索策略和学习表征。

“值得注意的是，Go-Explore 在探索过程中采取的行动是完全随机的（没有任何神经网络！），即使应用于状态矢量空间非常简单的离散化也是有效的，”研究人员写道。“这么简单的探索方式却能获得如此大的成功，这表明，记忆和探索良好的进阶步骤是有效探索的关键，即使是最简单的探索，也可能比寻找新状态，并表示这些状态的现代技术更有用。”

原文链接：

https://venturebeat.com/2018/11/26/uber-ai-reliably-completes-all-stages-in-montezumas-revenge/

a2uUJfM.png!web

链接： http://t.cn/E28YBT9

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

探索阶段

强化阶段

测试结果

Recommend

2019年九大网络安全发展趋势预测

模拟网络状态的利器 TC

滴滴CEO程维：坚决整改，把安全红线刻在心里

印度共享出行公司 Bounce 收购 ofo 印度资产

全球学者谴责基因编辑婴儿，始作俑者却说无悔……

四问“基因编辑婴儿”：风险不可预期且涉嫌严重违法

比特币11天暴跌44%，486亿美元蒸发背后，他们更凄惨

只玩裂变还不够，你应该还会搭建病毒式增长模型

[译]聊聊C＃中的泛型的使用（新手勿入） - 依乐祝

史里芬遭遇史炎：保定与邢台装下了多少幽默和荒诞

About Joyk