8

DeepMind全能AI:完全自学规则,攻破多款游戏,表现碾压人类!

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MjM5NDA1Njg2MA%3D%3D&%3Bmid=2652013461&%3Bidx=1&%3Bsn=92423c613bb9ad7ec26d4092c0dde986
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

2MBju2u.gif!mobile

DeepMind用同一个算法,攻克了国际象棋、将棋、围棋和雅达利游戏。动图来源: DeepMind

开发出人工通用智能,一直是人工智能研究的一大目标。此前的许多算法虽能精通诸如围棋、象棋等游戏,却无法“触类旁通”,每遇到新的游戏都需要更改框架,重新学习,更不用说将棋类游戏的方法搬到电脑游戏上了。

然而就在昨天,曾开发AlphaGo的DeepMind公司在《自然》上发文,正式宣布了 MuZero :这个新的算法不仅精通围棋、国际象棋和将棋,还能在30多款雅达利(Atari)游戏上全面超越过去的人工智能算法和人类。MuZero的正式发布,为人工智能领域揭开了新的篇章。

撰文 | 罗丁豪

故事从2014年开始,基于伦敦的DeepMind公司怀着一腔雄心壮志,着手建造一个巨大项目: 他们想要将正在生根发芽的人工智能(artificial intelligence,简称AI)技术大面积地应用到人类生活场景中 ,让机器与人真正地互动并融合。

他们决定从国际象棋入手:这是一个需要长期计划能力的人类游戏,对初出茅庐的AI技术来说是一项严峻的挑战。即使在1997年IBM的“深蓝”(Deep Blue)击败当时的国际象棋冠军卡斯帕罗夫之后,棋类AI的发展仍步履维艰。以围棋(Go,即日语“碁”字之转写)为例:2013年,AI在不让子的情况下几乎无法击败人类职业选手。

2016年,AlphaGo横空出世 ,以4:1击败韩国选手李世石,并在2017年的乌镇围棋峰会上击败了世界第一棋手柯洁。中国围棋协会当即授予AlphaGo职业围棋九段的称号。

如果说AlphaGo的成功确立了AI的“围棋霸权”,随后的 AlphaGo Zero AlphaZero 则进一步揭示了“棋类霸权”的可能性。作为AI算法,不论是AlphaGo还是其继位者,都需要大量的训练。AlphaGo依赖于专家棋法(expert moves)数据集,而AlphaGo Zero舍去了这一步,直接与自己对战以为训练提供数据。AlphaZero则除了围棋,更学会了日本象棋(将棋)和国际象棋。值得一提的是, 2018年底发布的AlphaZero,从第一次见到棋盘,到成为世界级棋类大师,只用了24小时。

rAbE7by.jpg!mobile

DeepMind公司在过去几年中陆续开发了AlphaGo、AlphaGo Zero、AlphaZero和MuZero。图片来源: DeepMind ,翻译制图:罗丁豪

然后, MuZero 来了。一篇昨晚正式发表于《自然》的论文,揭示了一个更加通用、强力的算法: MuZero不仅能下围棋、将棋和国际象棋,还在30多款雅达利游戏中展示出了超人类表现(superhuman performance)。

最重要的是, 没人教过MuZero这些游戏的规则。

无师自通

自古以来,哲学家和科学家都幻想着有朝一日能造出“人工通用智能”(artificial general intelligence)。简单地说,人工通用智能需要有极高的可塑性(flexibility),从而适应(甚至精通)各式不同的任务:一个能下棋、玩游戏、做家务、开飞机的AI。 然而在此之前,最好的AI算法也只能精通数个同类任务 ;会下围棋、将棋和国际象棋的AlphaZero就是一个例子。

这种限制,在很大程度上来自AI算法对规则的依赖性。 要想让AlphaZero下好各种棋,人类需要明确地教它各种棋的规则。以国际象棋为例,AlphaZero知道象只能斜着走,还不能跨过障碍物,而马可以跨过障碍物,但需要走“日”字。AlphaZero也知道什么是输赢和平局。可是一旦更换棋种,人类就需要将新棋种的规则从头教给AlphaZero。

me6Vz2E.jpg!mobile

AlphaZero(简称AZ)对战各个此前最强的棋类AI。图片来源: DeepMind ,翻译制图:罗丁豪

既然这种依赖性限制了目前AI算法的应用范围,那 最简单的解决方案,就是去除这种依赖性 :人类可以不教AI下棋,只给它一个棋盘。每当AI选择了下一步该如何走时,人类才告诉它这一步合不合法,并且是否导致了输赢或平局。

——这就是MuZero面临的情境。 对于任何一个游戏或任务,MuZero所掌握的只有一套“思考方式”,并没有该任务的“行为准则”。 它不知道国际象棋里的马该怎么走,也不知道将棋中如何达成“王手”。如同第一次见到电脑的小孩,MuZero具有作出推理论断的“思维工具”,但不知道如何才能赢得“扫雷”。

跟人类一样,MuZero的秘诀,在于摸着石头过河,为外部世界建立一个只属于自己的“模型”(internal model)。在这个内部模型中,MuZero舍弃了一切表面上的规则, 只留下对决策有用的信息 价值 (value,即当前决策“有多好”)、 策略 (policy,即最好的“下一步”是什么)和 奖励 (reward,即上一步“有多好”)。

qA3UFbM.jpg!mobile

MuZero能为外部世界建立模型,从而指导自己在不同任务中的策略。图片来源: Connor Shorten ,翻译制图:罗丁豪

要明白这种策略的特殊和有效性,我们可以拿MuZero和AlphaZero的神经网络作对比:

任何深度学习算法在面对棋盘时,第一步总是观察。AlphaZero能观察当前棋局(),并直接利用计划未来的棋步。这要多亏了它所知道的棋类规则: 它明白做出一个动作(ac tion)后的下一个棋局长什么样,并可以在下一个棋局的基础上 继续规划棋路 ,“想象”并评估各种不同的可能性。这样的规划方式,在深度学习上称为 “蒙特卡洛树搜索” (Monte Carlo tree search,MCTS)。MCTS 允许算法探索不同的可能性,并从中择出最优的动作 。因此,熟知规则的AlphaZero要想精通棋类,只需要一个“神经网络”(neural network),即“预测网络”(prediction network),给输入一个状态,它就能给出这个状态的价值( )和潜在策略();通过评估各个可能性,AlphaZero就能得知当前最好的棋步。

MuZero则没有这种“奢华待遇”:它需要摸索出棋盘上各个子的合法(legal)走法,还需要弄清输赢的概念;当然,它的目标与AlphaZero一样,赢就好了,越多越好。但在不清楚规则的情况下, MuZero需要另辟蹊径,利用“表征网络” (representation network) ,将观察到的棋盘状态转换成只属于自己的隐藏状态(hidden state) 。我们将当前的棋盘状态称为“O”(observation,即观察),MuZero的当前隐藏状态称为。但这时,MuZero遇到了第二个大难题:如何像AlphaZero一样评估未来的各种可能性呢?

不像AlphaZero,不知道棋盘规则的MuZero不能预测棋盘的各种可能状态,因此,MuZero需要从零开始,创造自己对棋路的内部模型。幸运的是,有了隐藏状态之后,MuZero就能算出状态下可以做出的各种行动(经过学习,MuZero得出的可能行动会越来越符合规则),并能通过“动态网络”(dynamic network) ,利用MuZero选择的行动和当前潜在状态,推演出。 在每一个真实世界的时间点内,MuZero都能利用自己的内部模型和MCTS选 择出这一个时间点的最佳行为,并将其应用于真实世界中。 在实际做出了一个最佳行为后, 这个 行为又能再“回收”,用于训练动态网络 (从而改进MuZero的内部模型)。

M7RnInb.jpg!mobile

AlphaZero和MuZero MCTS方法的并列对比。熟知规则的AlphaZero能由一个真实状态和可能行为,推测下一个真实状态。而MuZero由于不知道游戏规则,只能将真实状态表征为隐藏状态,学会建立自己的内在模型。制图:罗丁豪

也就是说,由于AlphaZero对规则的掌握,它只需要一个预测网络就能精通棋类。而不能预先知晓规则的MuZero,则需要利用动态网络和表征网络,自己学习并建立一个内在模型,从而学会下棋。 建立内在模型的过程中 ,人类不会给MuZero设置任何限制: MuZero可以舍弃任何信息 ,只保留有用的元素(即价值、策略和奖励)。

Q7Rze2a.jpg!mobile

相比于只需要1个神经网络的AlphaZero,MuZero需要3个神经网络来建立内部模型,从而指导精确规划。制图:罗丁豪

与人类一样,MuZero可以在它的“脑海”中创造任何规则和动态。它的目标是做出最精确、最有效的未来规划。舍弃了"循规蹈矩"的MuZero反而因此获得了极强的可塑性,在截然不同的棋类和电脑游戏中都"得心应手"。

"超人"表现?

就这样, MuZero这样一个“无师自通”的算法,竟然在AlphaZero引以为傲的棋类游戏中轻松与后者打成了平手。

yiUvUbF.jpg!mobile

在国际象棋、将棋和围棋中,MuZero的表现(蓝线)达到甚至超过了AlphaZero(橙线)。而 在雅达利游戏“吃豆人小姐”中,MuZero的表现(蓝线)远超此前表现最佳的R2D2算法得分(橙线)。图片来源: Schrittwieser et al.,  Nature ,翻译制图:罗丁豪

在国际象棋、将棋和围棋中,MuZero都能达到AlphaZero的水平,甚至在围棋中稍稍胜过了AlphaZero。这表明MuZero“自学成才”建立的内部模型,或许比AlphaZero的“循规蹈矩”更接近围棋的要义。在雅达利游戏中,MuZero的表现也非同寻常。以“吃豆人小姐”(Ms. Pac-Man)为例, MuZero的得分为243401 .10,相比之下,人类的最高分只有6951.60,是MuZero的1/35。 在57个测试用的雅达利游戏中,MuZero在37个中取得了历史最高分,而人类则仅在5个游戏中保持着最佳成绩。

但是,在利用AlphaZero和其他算法攻破了这些游戏后,反而对MuZero隐藏起规则,让它“闭上眼”下棋、“背着手”玩游戏的目的是什么呢?

正如本文开头所说,DeepMind和整个AI领域一样,并不在乎国际象棋和雅达利游戏本身。 这是一场事关智能的征途,目标是理解智能本身。 牙牙学语的婴儿并不明白动名词的区别,却能在短短几个月内连词成句,甚至创造出只属于他们的句子。生物学家也并非生来就知晓细胞的各种秘密,而是在实验和失败中,一步步对生物世界建立了理论和模型,从而获得深刻洞见。

事实很残酷: 循规蹈矩不是智能 。事先熟知规则再精通下棋,与先摸索规则、建立内部模型再精通棋路是全然不同的。前者只能困于“棋”中,后者则能将一套“思考方式”搬到各种任务上。前者的例子包括AlphaGo到AlphaZero的各种棋类AI,后者则包括MuZero和于尔根·施密德胡波(Jürgen Schmidhuber)著名的 “循环世界模型” (Recurrent World Model)。

为外界建立内部表征 是人类最引以为傲的能力之一。如今在AI身上,这个能力再次证明了自己的价值。MuZero不仅让人类看到了创造人工通用智能的可能性,还为我们打开了一扇通往智能本身的大门:

能究竟是什么?我们离答案似乎越来越近。

RjeQRfa.jpg!mobile

B7FBjqI.jpg!mobile

2021年《环球科学》征订现已开启

戳图片 或阅读原文立即订阅

qIBVZnV.jpg!mobile

点击 【在看】 ,及时接收我们的内容更新 


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK