4

AI看了70000小时《我的世界》视频学会人类高级技巧,网友:它好痛苦

 1 year ago
source link: https://www.qbitai.com/2022/11/39885.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI看了70000小时《我的世界》视频学会人类高级技巧,网友:它好痛苦

head.jpg十三 2022-11-27 11:58:14 来源:量子位

还打算给它看100万小时视频

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

AI看70000小时《我的世界》视频,能达到一个什么水平?

以“钻石镐”(diamond pickaxe)为例,这个东西高级人类玩家要快速点击20分钟、约2.4万个动作才能制作完成。

而现在的AI,已然能够轻松hold住了。

哐哐找到各种材料,一步步进行各种合成:

99656ab6ebfa411cbb2196794866c3ec~tplv-tt-shrink:640:0.image

这就是来自OpenAI号称最强的《我的世界》AI——MineDojo

它还是世界第一个能够打造“钻石工具”的AI。

不仅如此,像打造“石镐”、“简易避难所”都不在话下:

976b60be87df4c1ba45ba986e144247f~tplv-tt-shrink:640:0.image

当然,在《我的世界》里其它的常规操作,在MineDojo手里也游刃有余。

例如游泳、狩猎、支柱跳等等:

349ae8a16c37441bb7335d349da38af4~tplv-tt-shrink:640:0.image

至于OpenAI为什么要让AI学会这些技巧,研究人员Bowen Baker表示:

很大程度上是因为我们在模拟人类上网时的行为。

MineDojo是如何炼成的?

正如我们刚才提到的,MineDojo的“炼成之道”,就是看视频

这些视频内容都是人类玩家发布在油管上,展示自己如何玩《我的世界》的。

然后在看完70000小时视频之后,这个AI就学会了如何执行游戏中的各种任务。

0fde49ebc3bc468189d4e800cfb602b8~tplv-tt-shrink:640:0.image

这种方式一般被称为模仿学习(imitation learning),就是训练神经网络通过观察人类行为来学习。

虽然此前也有众多相关研究,但仍有一些问题尚待解决。

“贴标签”就是其中之一。

传统方式就是在每一个动作上贴上标签:这么做会发生这件事、那么做会发生那件事。

但这种方式可想而知的后果,就是工作量太大了,导致可以用来训练的数据较少。

因此,OpenAI的研究人员便另辟蹊径,想出了不一样的研究思路——视频预训练(Video Pre-Training,VPT):

f1ec8a843e7c4eaaa2c0b9687ed26552~tplv-tt-shrink:640:0.image

这个方法的核心思路,就是训练另一个神经网络,专门来处理繁琐的“贴标签”的工作。

为此,研究人员先是找来一批玩家让他们先玩《我的世界》,当然,娱乐的同时也要记录下键盘、鼠标的点击次数。

如此一来,研究人员先是得到了2000小时带标记的一些数据。

在这基础上,他们便开始训练一个模型,来匹配键盘、鼠标动作和屏幕上的结果——

例如在什么情况下点下鼠标,会让游戏中的角色挥舞斧头。

把这个模型训练出来之后,就要引入70000小时没有标签的视频了;在它的加持下,庞大且可用的数据集就诞生了。

再接下来,就是回到之前模仿学习的思路,用这些新数据来训练AI。

1cc9fac3fafc444a9b963ebee1086cc0~tplv-tt-shrink:640:0.image

虽说模仿学习可以说是强化学习的一个分支,但OpenAI的研究人员发现,VPT训出来的AI,能够完成单靠强化学习无法完成的任务。

比如制作木板并把它们变成一张桌子(大约需要970个连续动作)。

不仅如此,研究人员还发现,若是把模仿学习和强化学习做个结合,那么效果是最好的。

而由《我的世界》这次的研究拓展开来,OpenAI的研究人员还表示:

我们的AI还可以执行其它任务,例如鼠标浏览网站、预订航班或在线购物。

《我的世界》已经成为AI技术试验田

其实OpenAI这次研究的亮点,刨除VPT方法本身,其研究的两大要素——《我的世界》视频,也成为人们热议的焦点。

《我的世界》这款游戏的一大特点就是开放性,玩家可以在这个虚拟世界里做出许多意想不到的杰作。

不同于以往强化学习训练AI的游戏环境,大多都是以“输赢”为结果而终止了,但往往AI后期训练出来的能力可能是超越这种“限制”的。

但《我的世界》就没有“输赢”之说了,AI可以在这里尽情的发挥。因此OpenAI研究人员表示:

《我的世界》是训练AI很好的试验田。

而这也赢得了NeurIPS的认可——MineDojo拿下了今年这个顶会的一个奖项。

至于这项研究第二个热议点“视频”,正如索尼执行董事Peter Stone所述:

视频是一种潜力巨大的培训资源。

但似乎OpenAI的研究人员还不满足此次的成果,他们认为,收集100万小时《我的世界》的视频,会让它们的AI变得更加出色。

当然,这项研究也引来不少网友们的围观,也有一些比较有意思的讨论:

人们想让AI有意识,但它们有意识之后才发觉,自己需要被迫看这么久的视频,有够累的。

8df6a0b5a8ff4c10a77da29aa994a273~tplv-tt-shrink:640:0.image

论文地址:
https://openai.com/blog/vpt/

参考链接:
[1]https://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/
[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ
[3]https://www.youtube.com/watch?v=fJn9B64Znrk

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK