1

英伟达Jim Fan最新TED演讲上线：AI下一个前沿是「基础智能体」！

7 months ago

source link: https://awtmt.com/articles/3707108
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

neoserver,ios ssh client

英伟达Jim Fan最新TED演讲上线：AI下一个前沿是「基础智能体」！

新智元发表于 2024年01月24日 11:36

摘要：一个可以在虚拟世界和现实世界里泛化的通用智能体模型将是AI领域的下一个巨大挑战。

「AI的下一个前沿将是『基础智能体』（Foundation Agent）——一个掌握广泛技能，控制许多身体，并能够泛化到多个环境中的单一算法」。

等了三个月，英伟达高级科学家Jim Fan在TED AI 2023上的演讲视频终于上线了。

LTE4MTAyNjIyOA==

视频中，Jim Fan提出了「Foundation Agent」，一个可以在虚拟世界和现实世界里泛化的通用智能体模型。

他具体解释了，这项技术将如何从根本上改变我们的生活，渗透到从视频游戏和元宇宙，到无人机、仿人机器人的方方面面，并探讨了单一模型如何掌握跨越这些不同现实的技能。

LTkxNjkxOTQxNw==

Jim Fan认为，「基础智能体」应该在3个维度上进行扩展：

- 技能：能解决的任务数量；

- 具身：能控制的身体形态的多样性；

- 现实：智能体能掌握的虚拟或物理空间的数量。这包括有不同规则的游戏、模拟和真实世界场景。

我们为什么想要一个单一的「基础智能体」，而不是许多更小的模型？

在每个AI领域的发展历史中，都能发现这样模式：从专家模型 -> 通用模型 -> 专业化的通用模型。

这里的「专业化的通用模型」通常远比原先的专家模型更强大，就像 LlaMA 的精炼版本远超过5年前的定制化NLP系统一样。

NTEyOTkwOTg2

此外，Jim Fan本人还分享了演讲时的心得。

「在TED演讲时，我脚下只有一个「信心」显示器，只显示当前的幻灯片和计时器。这意味着我需要完全记住整段演讲。一开始让我很担心，但事实证明，这是与听众建立联系，直接触及他们心灵的最佳方式」。

值得一提的是，Jim Fan还公开了这次演讲的PPT，一起看看这场演讲的精彩亮点吧。

TED演讲全文

2016年的春天，我坐在哥伦比亚大学的一间教室里，并没有专心听讲。相反，我正用电脑观看一场棋盘游戏锦标赛。

这不是一场普通的比赛，而是一场非常、非常特别的比赛——AlphaGo与李世石开启对决。

这场比赛，AI在五盘棋中赢了三盘，成为有史以来第一个在围棋比赛中击败人类冠军的「棋手」。

LTkxMTc5ODU0Mg==

到现在，我仍然记得那天自己见证历史的激动心情。AI智能体终于进入主流的时刻。

但当兴奋褪去后，我意识到，AlphaGo虽然强大，但它只能做一件事，而且只能做一件事。

它无法玩任何其他游戏，比如《超级马里奥》、《我的世界》，当然也不能帮你洗脏衣服，或今晚为你做一顿丰盛的晚餐。

我们真正想要的是：像机器人Wall-E那样多才多艺的AI智能体，像《星球大战》中的各种各样机器人的载体或化身。

LTE3NDkzNjMxOQ==

NjcyNDA1NjU2

又或是像《头号玩家》一样，可以跨越无限的虚拟或现实世界。

那么我们如何在不久的将来实现这些科幻想法呢?

ODc5OTM2MDcw

如下左图是迈向通用AI智能体的一个实践者指南。当前的大多数研究工作按以下三个维度展开：

AI智能体可以掌握的技能数量；可以控制的身体形态或载体；以及它所能掌握的现实情况。AlphaGo就在左下角的位置，但右上角才是我们真正要达到的目标。

NDA5MDk2Mjkz

Voyager玩转「我的世界」

接下来，让我们一次看一个维度。

今年早些时候，我带领了「Voyager」项目，这是一个能在多种技能上大规模扩展的智能体。没有任何游戏能比《我的世界》更好地支持无限的创造性玩法。

这有一个有趣的事实：《我的世界》现在有1.4亿活跃玩家。这个数字相当于英国人口的2倍多。

MTc1NDkxMTg0

这款游戏之所以如此受欢迎，是因为它是开放式的：没有固定的游戏情节，你可以在游戏中做任何想做的事情。

当我们让Voyager在《我的世界》中自由活动时，会发现它可以在没有任何人干预的情况下，连续玩上几个小时的游戏。

这段视频展示了Voyager在一次游戏中连续行动的片段。

LTE0NjA0MzM2Mg==

它可以探索地形，开采各种材料，与怪物战斗，制作数百种配方，并解锁一个不断扩展的技能树。

LTk4NTM5MTQ2OQ==

那么，其中的奥妙是什么呢？核心要义是「编码即行动」。

首先，我们使用社区制作的Minecraft JavaScript API将3D世界转换为文本表示。Voyager调用GPT-4，用JavaScript编写代码片段，这些代码片段将成为游戏中的可执行技能。

然而，就像人类工程师一样，Voyager也会犯错。它并不总是在第一次尝试时，就正确地完成程序。

因此，我们为它添加了一个「自我反思」机制，以便改进。

LTE3NTQ1MDMyODY=

「自我反思」有三个反馈来源：JavaScript代码执行错误；智能体状态，如健康和饥饿；以及世界状态，如附近的地形和敌人。

MjEwMjY1MDkwMw==

因此，Voyager会执行一个动作，观察这个动作对世界和自身的影响，反思如何才能做得更好，并尝试一些新的行动方案，然后不断重复。

一旦技能成熟，Voyager就会把它保存到技能库中，作为一种持久的记忆。

你可以把技能库看作一个完全由语言模型编写的代码库。

通过这种方式，Voyager在《我的世界》中探索和实验过程中，能够以递归的方式扩展自身的能力。

NDExNjc4OTQ3

让我们一起看个例子。

Voyager发现自己很饿，需要尽快获得食物。它检测到附近有四个实体：一只猫、一个村民、一头猪和一些小麦种子。

Voyager开始了内心独白：「我要杀死猫，还是村民来获取食物？这主意糟透了。小麦种子如何？我可以用种子种植农场，但那需要很长时间。对不起，小猪，你被选中了」。

随后，Voyager在它的物品栏中发现了一块铁。

于是，它从技能库中回想起了一个旧技能来制作铁剑，并开始学习一个新技能「猎猪」。现在我们也知道，不幸的是，Voyager不是素食主义者。

LTIyODk1MzM1NA==

还有一个问题：Voyager如何无限期地探索下去？

我们只给了它一个高级指令，那就是尽可能多地获取独一无二的物品。

Voyager自己实现了一个curriculum：主动找到逐步更难、更新颖的挑战来解决。

Nzk4MjE1MTQx

将所有这些整合在一起，Voyager不仅能掌握，还能在过程中发现新的技能。而我们没有预先编程任何内容，一切都是Voyager的主意。

当一个智能体永远充满好奇心，永远追求新的探险，这就是我们所说的终身学习。与AlphaGo相比，Voyager能做的事情非常多，但仍只能在《我的世界》中控制一个身体。

MTAxNTY2MzM0NA==

MetaMorph让AI有多个身体

那么问题来了：我们能否有一个可以在不同载体上工作的算法？一起来看MetaMorph，这是我在斯坦福共同开发的一个项目。

MTQ3NjgzMDA4OQ==

我们创建了一个基础模型，它不仅能控制一个机器人，还能控制数千个手臂和腿部配置各异的机器人。

Metamorph能够处理来自不同机器人身体的各种运动特征。

LTY1OTMwNzMzMA==

如下我们如何创建MetaMorph的直观方法。首先，我们设计一个特殊的词来描述身体部件，这样每个机器人本质上就是用这种词写成的一句话。

然后，我们对其应用Transformer，就像ChatGPT一样，但MetaMorph写出的不是文本，而是运动控制。

LTUyMzM0Njk4OQ==

我们展示了MetaMorph能够控制成千上万个机器人上下楼梯、穿越复杂地形，避开障碍物。

LTQ5MjY4ODgxMw==

放眼未来，如果我们可以大大扩展这个机器人词汇量，我设想MetaMorph 2.0将能够泛化到机器手、人形机器人、狗、无人机甚至更多领域。

LTIxMzg1ODEyNDE=

与Voyager相比，MetaMorph在多体控制方面迈出了一大步。

不同虚拟环境模拟

现在，让我们将一切再提升一个层次，在不同的环境之间转移技能和载体。来看IsaacSim，这是英伟达的模拟平台。

LTk2ODAzNjE0MA==

IsaacSim最大的优势是，将物理模拟加速到比实时快1000倍。

例如，这个小人只用了3天的模拟时间，就通过10年的高强度训练，学会了令人印象深刻的武术。

这很像电影《黑客帝国》中的虚拟训练场景（sparring dojo）。

LTE1NDc1OTI4NjE=

而这个赛车场景则是，仿真技术跨过「恐怖谷」的地方。

多亏了硬件加速光线追踪技术，我们才能渲染出极其复杂的场景，并呈现出令人叹为观止的细节。

LTUxNDI4NzcxNg==

你在这里看到的逼真效果将帮助我们训练计算机视觉模型，这些模型将成为每个人工智能智能体的眼睛。

更重要的是，IsaacSim可以程序化地生成具有无限变化的世界，因此没有两个世界看起来是一样的。

NjkxMTYxMzcy

这里有一个有趣的想法。

如果一个智能体能够掌握10000个模拟，那么它很有可能会泛化到真实物理世界，因为我们的世界也只是第10001个「实境」。让我们沉浸其中吧。

随着我们在这张图上的进展，我们最终会到达右上角，那是一个能在所有三个轴上进行泛化的单一智能体，那就是「基础智能体」。

LTE4MDU1NjQyNDk=

我相信，基础智能体的训练将与ChatGPT非常相似。

所有语言任务都可以表达为文本输入和文本输出。无论是写诗、将英语翻译成西班牙语还是编写Python代码，都是一样的。

LTE2MDE2MDU4ODQ=

而ChatGPT只需在大量数据中进行大规模扩展即可。

MTkyNDkzNzg2Nw==

原理一样。基础智能体将任务提示作为输入，并输出操作。

MzI1OTc1MjY3

我们只需在大量现实数据中对其进行大规模扩展，即可对其进行训练。

Nzg2MTI1NzY5

我相信在未来，一切能够移动的东西最终都将是自主的。

有一天我们会发现，所有的AI智能体，无论是《Wall-E》、《星球大战》，还是《头号玩家》。

无论是在物理空间还是虚拟空间，对于同一个基础智能体来说都只是不同的提示。

LTYzMjI5MzUxNw==

朋友们，这将是我们探索人工智能的下一个巨大挑战。

本文来源：新智元，原文标题：《英伟达Jim Fan最新TED演讲上线：AI下一个前沿是「基础智能体」！》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

Recommend

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK