AI的下一波浪潮，具身智能已经被用钱投票

物联网智库·2024-03-08 09:57

进击的具身智能！

具身智能又被“用钱投票”了！

不久前，人形机器人初创公司Figure宣布，已从亚马逊创始人贝索斯、英伟达、OpenAI和微软等巨头那里筹集了约6.75亿美元的资金，公司估值26亿美元。此外，Figure还将与OpenAI合作，开发下一代人形机器人的AI模型。

无独有偶，英伟达著名科学家Jim Fan被委以重任，与他的老友朱玉可一同带领一个名为“GEAR”（Generalist Embodied Agent ResearchBuilding ）的新研究小组，推动英伟达在具身智能和Agent领域的研究。

Jim Fan 甚至表示：Nvidia有足够的资金一次性解决机器人基础模型、游戏基础模型和生成仿真问题。我们的新团队可能是地球上资金最充足的AI实验室。毕竟，黄院士在2023年的半导体大会演讲中，已经将具身智能描述为AI的下一波浪潮，并展示了他们的Nivdia-VIMA 。

英伟达创始人黄仁勋，去年在ITF World 2023半导体大会表示，具身智能是AI下一个浪潮，是能理解、推理、并与物理世界互动的智能系统，AI与机器人的融合，具有很好的想象空间。

从谷歌收购（又卖掉）的波士顿动力，到特斯拉的擎天柱机器人，谷歌与斯坦福合作引爆全网围观的ALOHA ，以及最近收获10亿元B2轮投资的宇树科技等……都让具身智能这一领域蒙上了一层神秘的色彩

那么，巨头们究竟看中了具身智能的那些特点和潜力，机器人与具身智能可能碰出哪些火花？具身智能的火热又将带动哪个赛道？我们将在本文中为大家讲述可能的答案。

01 具身智能，就是AI+人形器人吗？

那么，如日中天的具身智能究竟是什么？

具身智能来自英文翻译，Embodied AI 或 Embodied Intelligence。意思是具身（依赖身体）的智能体或者具身（依赖身体）的人工智能。

它植根于“具身认知”的概念，此前，心理学中对于躯体和心理是分开谈论的，随着对人的理解加深，人们开始逐渐认同，人类的心理与所处的环境、位置、所在的身体，存在特点的联系。那么，在AI领域，该概念表明智力不仅来自大脑，还来自身体与周围环境的相互作用。

因此，物理形态和感官能力在具体人工智能中至关重要。人类如何依靠感官来感知世界，就会给人形机器人加什么，甚至是激光雷达、红外摄像，也都有可能被装配。此外，这些人工智能系统配备了轮子和电动关节等执行器，使它们能够与周围的环境进行物理交互和操纵，就像我们如何使用我们的身体来导航和与周围的世界互动一样。

那么，具身智能到底有何种魅力呢？

ChatGPT带来惊喜已经有一年多的时间，各大互联网企业言必称大模型，开源大模型也不断涌现，计算视觉、认知科学、神经科学等等领域也进入了快速发展阶段。

具身智能相关技术逐渐成熟，并且将在工业和其他复杂场景下产生类GPT的惊喜动作，随着无人工厂的增加，以及企业对于流水线换线的需求，他们已经不再满足于简单的工业自动化、生产自动化，而是期待有一种机器人提供一种自动学习，并进行决策和行动的方法，这就是具身智能的最大优势所在。

除了巨头们的资本投入和组团入场，不断有新的产品涌现出来，国内政企也纷纷看好人形机器人产业，典型代表就是最近打破全尺寸机器人移动速度世界纪录、不怕“偷袭”的宇树科技，以及“华为天才少年”稚晖君领衔的智元机器人。

2023年11月，工业和信息化部印发《人形机器人创新发展指导意见》。部署了5方面任务：在关键技术突破方面，打造人形机器人“大脑”和“小脑”、突破“肢体”关键技术、健全技术创新体系。在产品培育方面，打造整机产品、夯实基础部组件、推动软件创新。在场景拓展方面，服务特种领域需求、打造制造业典型场景、加快民生及重点行业推广。在生态营造方面，培育优质企业、完善创新载体和开源环境、推动产业集聚发展。在支撑能力方面，健全产业标准体系、提升检验检测和中试验证能力、加强安全治理能力。

具体到“部位”就是：

开发基于人工智能大模型的人形机器人“大脑”，增强环境感知、行为控制、人机交互能力，开发控制人形机器人运动的“小脑”，搭建运动控制算法库，建立网络控制系统架构。

系统部署“机器肢”关键技术群，打造仿人机械臂、灵巧手和腿足，攻关“机器体”关键技术群，突破轻量化骨骼、高强度本体结构、高精度传感等技术。

构建完善人形机器人制造业技术创新体系，支持龙头企业牵头联合产学研用组成创新联合体，加快人形机器人与元宇宙、脑机接口等前沿技术融合，探索跨学科、跨领域的创新模式。

上海交大卢策吾教授提出了关于具身智能的PIE（感知、想象、执行）方案。

图源：卢策吾，《具身智能，“感知-想象-执行”研究》ppt

感知方面，具身智能需要知道这个世界各种概念与操作知识，包括外形、结构、语义、关节体类别等等。同时，通过视觉、触觉等与物体的交互感知，具身智能可以验证各种概念与知识。

想象方面，具身智能需要对感知到的物体进行仿真，能知道如何“操作”物体。

执行方面，具身智能按照仿真情况，通过机器人去对物体进行实际的操作，根据实际情况反馈，让智能体学习，加强或者更新认知。这个过程与人类学习、实践的过程也十分类似。

关于一种智能是不是具身，有这样的说法：具身智能与非具身智能的区别在于能够从环境交互中自主学习，并产生对客观世界的理解与改造，不依赖人工进行的数据标注。具身智能机器人则是具身智能的实体形态，它偏向于关注将智能与实际物理世界结合起来，使机器能够通过感知和运动与环境进行实时交互，从而更好地适应和解决复杂任务。要想实现具身智能，需要多个学科的交叉能力。

清华大学孙富春教授也在讲座当中也为我们辨析了具身智能和非具身智能的重要区别——具身智能的突出特点是沉浸式和反作用。这也解答了最初的问题：AI+人形机器人，就是具身智能吗？——需要满足特定条件才行，否则就只是一种数字化的智能工具。

02 具身智能的技术与发展

从技术的角度，具身智能更多关注为“本体”实现祖师爷构想的“机器思考”能力。近年来，做NLP的自然而然转向去做大模型，而做智能机器人的团队、做多模态的团队，也纷纷涌入具身智能赛道。

接下来就为大家介绍具身智能领域的技术要素和产业链。

具身智能技术要素与产业链

正如前文所述，具身智能本身是一种交叉领域，既建立在已有的AI和多模态的大语言模型上，又需要使之融入具有更强感知、决策与执行的人形机器人本体当中。与之相关的技术可以分成感知领域、算法领域以及机器人相关领域，具体相关的产业链，以人形机器人的相关产业链为主，主要包括伺服系统、丝杠、减速器、摄像头、激光雷达、力矩传感器等等。

1）伺服系统：由驱动系统+多台电机+检测反馈元件构成。其中，空心杯电机用于人形机器人手部关节，价值量占比约 4%，国产化程度较低，大批量生产为核心难点；无框力矩电机用于人形机器人身体关节，价值量占比约 21%，转矩密度、温升、额定和最高转速、成本控制是核心。

2）丝杠：人形机器人中可能用到梯形螺纹丝杠、滚珠丝杠、行星滚柱丝杠，价值量占比约 14%。其中行星滚柱丝杠具有高承载、高寿命、高精度、高稳定性等优点，可适应高速重载工作，生产制造难度最大，目前主要依赖进口，国产厂商在原材料、加工工艺、试验与检测等方面有待提升。

3）减速器：人形机器人中主要用到行星减速器、RV 减速器、谐波减速器，价值量占比约 17%。目前减速器行业日系厂商占主导，国内厂商关键技术已攻克。

4）力矩传感器：力矩传感器是机械臂感知力度的重要部件。力矩传感器又称扭矩传感器，可在各种旋转或非旋转机械部件上对扭转力矩感知进行检测，将扭力的物理变化转化为精确的电信号，具有精度高、频响快、可靠性好、寿命长等优点。

5）惯导：惯性导航系统的优势在于其对外部环境的独立性，适用于各种环境，包括没有GPS信号的情况。因此惯性导航在航空、航海、车辆导航等领域得到广泛应用，尤其是在需要高精度和短时延的场景中。近年来，全球惯性导航市场发展快速，市场规模不断增长。2022年全球惯性导航系统市场规模从2016年的111.66亿美元增至195.88亿美元。

6）摄像头：工业相机是机器视觉系统中的一个关键组件，其最基础功能就是将光信号转变成为有序的电信号。选择合适的工业相机也是机器视觉系统设计中的重要环节，工业相机不仅是直接决定所采集到的图像分辨率、图像质量等，同时也与整个系统的运行模式直接相关。好的工业相机应具有高精度、高清晰度、色彩还原好、低噪声等特点，而且通过计算机可以编程控制曝光时间、亮度、增益等参数，另外图像窗口无级缩放，带有外触发输入，带有闪光灯控制输出等功能。

7）雷达：雷达又分为激光雷达和毫米波雷达，在工业制造、智慧城市、智慧交通当中均有广泛的应用，其特点在于能够实现对纯视觉（摄像头）感知数据的补充，提升感知系统的灵敏度和稳定性。

8）动力能源：面向人形机器人高动态、长续航能量需求，突破高能量密度电池、智能电源管理、电池组优化匹配等关键技术，开发高能效、高紧凑动力能源总成产品，提升人形机器人的续航与环境适应能力。

9）芯片：面向高实时协调运动控制需求，研发具有高动态运动驱动、高速通信等功能的专用芯片，研制“感-算-控”一体化的高性能运动控制器。面向人形机器人认知与决策需求，研发具有多模态空间感知、行为规划建模与自主学习等能力的智能芯片，提升人形机器人协调控制能力。

仿生或成为解决具身智能难题的宝库

鲍德温效应指出：学习适应性优势的能力，可以通过达尔文的自然选择遗传给后代，即“大自然选择的身体形态变化，使得后代能更快学习有利的行为”。例如，如果一种动物在生命早期不能学会走路，可能更容易死亡，从而对基因型产生直接的选择压力，选出能更快学会走路的动物。

对于看似没有生命的AI，也是这样，几百年来，仿生技术已经成为人类科技发展的一个重要的“参考书”，从模仿虾壳的宇航服弯折到高强度的蚕丝，琳琅满目的仿生算——遗传算法、蚁群算法、模拟退火、布谷鸟算法……一些摄像头也在模仿昆虫的复眼，声呐设备来自蝙蝠等等。从神经网络的出现到从本体发育的层面，有大量的方式可以对具身智能机器进行优化调节。甚至具身智能这个词本身，也是来自心理学上的“具身认知”说法，与仿生密不可分。

复旦大学张文强研究员以人类教猫狗学习的行为，对于仿生智能表达了自己的看法：

首先，猫狗的学习也是自主智能，包括感知、认知、推理、学习以及执行等完整步骤；

其次，这种学习是非常高效的，既不用上百万的数据量，也无需教授多次；

最后，这种学习方式的能耗很低，这些动物的大脑功率，甚至不到1瓦特，不仅为仿生学习算法和设备处理提供了参考，也为芯片设计提出了挑战和思路。

除了对于动物/机器本体和心智发育的研究，他还提出实现群智发育，为未来集群具身智能提供了参考。

图源：张文强《具身智能之发育观》ppt

汽车与工业制造领域将成具身智能最早落脚点

特斯拉作为一家汽车和工业制造企业，在具身智能领域也走在了前沿，结合它的成功和具身智能未来的发展需求，我们总结了以下结论。

汽车行业是具身智能发展的温床。一方面，自动驾驶的发展离不开先进的算法和高端的算力，甚至是较为激进的算力设备，类似特斯拉一样的企业不光造车，还造芯片，目的就是为其擎天柱等人形机器人提供计算资源。此外，自动驾驶场景当中使用的感知、决策、执行设备也与人形机器人、具身智能产业高度重合。

另一方面，自动驾驶行业的AI技术也属于行业顶流。不论是追逐高端的L4自动驾驶，还是实现端到端的神经网络，他们在智驾领域的努力，都能够为人形机器人项目建设提供足够资金、人力和物力支持。甚至这些人形机器人，经过在工厂当中的长期活动，也将会积累足够的感知和交互数据，为之后反哺工业制造提供条件。

从工业制造来，到工业制造去接触过工业大模型的朋友都了解，单凭高端的感知、计算和机械设备，想要实现LLM为工业企业赋能也是不现实的，原因是缺少工业Know-how（生产技巧），这就好比工业当中的护城河，企业并不会随便将自己多年来摸索的数据和生产技巧轻易转手他人。

尽管具身智能追求的是在未知环境、无示范情况下实现接收命令并自主操作。但是单凭AI技术的发展实现具身智能就是无源之水，无本之木。物联网产业、工业制造当中存储的大量数据和工业Know-how才是点睛之笔。也是具身智能想要反哺工业首先需要引入的部分。

此外，类似大飞机、高铁的装配、船舶的焊接工作，具有尺度大、任务多、要求精度高等特点，这类新型工业制造场景，既要又要还要，的确只有具身智能才能高精度、高效地完成。

当前，尽管AIGC也有在工业领域崭露头角，但是鲜有非常优秀的案例诞生，其原因可能就是生产know-how的缺乏，以及对于成本和成效的不确定性。所以，和特斯拉的道理一样，什么地方可能诞生工业大模型，什么地方就是具身智能的发育之所。

03 具身智能发展简史

如果要看前途，一定要看历史。

——毛泽东

关于具身智能的发展，和量子力学一样，可以追溯到“一只猫的故事”上。

1963年，MIT认知科学的教授Richard Held发表文章中提出，两只小猫被放置在旋转木马中，其中一只主动移动自己，同时将另一只被动的小猫拉到类似吊篮的摇篮中。虽然两只小猫都暴露在相同的视线下，但只有主动移动的小猫才能获得视觉引导自己的能力。例如，活跃的小猫可以准确地用爪子够到物体；被动的小猫则不能。

这就是业内常常谈到的“主动猫”和“被动猫”。

图源：孙富春《具身大模型与3c装配应用》 ppt

随后，来自心理学的“具身认知”的说法，开始在AI+机器、智能体等方向不断开花结果。微软尝试将GPT类产品移植到机器人身上。让他们能够“听懂”人话，并开始自主作业。

2009年，还在普林斯顿工作的李飞飞提出了一个数据集，ImageNet，包含了数百万张有标签的图像，可以用来训练复杂的机器学习模型，以识别图像中的物体。

2021年，麻省理工学院（MIT）、MIT-IBM沃森人工智能实验室、哈佛大学和斯坦福大学的研究人员开发了一个名为ThreeDWorld（TDW）的平台，并希望创造一个类似于《黑客帝国》的丰富虚拟世界。TDW能够模拟室内和室外的高保真音频和视频环境，并允许用户像在现实生活中一样根据物理定律与对象进行交互。当发生相互作用时，系统能够计算并执行流体、柔体和刚体的对象方向、物理特征和速度，从而产生精确的碰撞和撞击声音。

在ChatGPT问世之后，作为OpenAI的金主，微软尝试将GPT与机器人结合，通过大预言模型给机器人提供指令。

类似VIMA、VoxPoser、ALOHA、擎天柱等惊艳项目不断涌现，学术圈、企业界也都开始涌向具身智能这个充满潜力的赛道上来。

2022年，deepmind 表示还无法理解物理常识，2024年的claude3 似乎已经被验证有响应和理解世界的能力。

我们正在向着图灵祖师爷的设想无限靠近……

时至妇女节，谈到具身智能，不得不提到一位杰出女性——李飞飞。她是美国国家工程院院士、美国国家医学院院士、美国艺术与科学院院士，美国斯坦福大学首位红杉讲席教授，她是具身智能的推动者，她是众多青年人的榜样和华人的骄傲。她还多次受邀参与国会对于AI领域的分析评估。

仅具身智能一个领域，她和他团队的成果就令人瞩目：

ImageNet数据集的发布，以及相关比赛的举办，为具身智能的发展奠定了基础；

2021年，李飞飞团队发布了具身智能的基准，BEHAVIOR，其中包含虚拟、交互式和生态环境中的 100 种日常家庭活动；

2021年，在Nature子刊发表论文《Embodied intelligence via learning and evolution》（通过学习和进化实现具身智能）；

2023年，斯坦福李飞飞团队和英伟达合作，推出VIMA，VIMA 智能体能像 GPT-4 一样接受 Prompt 输入，输入可以是多模态（文本、图像、视频或它们的混合），然后输出动作，完成指定任务。Nividia VIMA在半导体大会上被黄老板专门拿出来展示；

2023年，李飞飞团队发布VoxPoser，新方法实现了零样本的日常操作任务轨迹合成，也就是机器人能够执行没见过的任务，而无需示范；

此外，前文提到掌控英伟达具身智能研究小组的的两位研究科学家——Jim Fan 和朱玉可、现上海交大教授卢策吾以及前特斯拉总监、两进两出OpenAI的大佬Andrej Karpathy，都是她的学生。

04 写在最后

今年的政府工作报告提出，大力推进现代化产业体系建设，加快发展新质生产力。充分发挥创新主导作用，以科技创新推动产业创新，加快推进新型工业化，提高全要素生产率，不断塑造发展新动能新优势，促进社会生产力实现新的跃升。无疑，拥有人形机器人和LLM加成的具身智能正是“新质生产力”的典型代表，未来它将在工业生产当中成为独当一面的主力军。相关技术也将反哺其他社会领域。

多位专家表示，具身智能还处在拓荒期，国内也已经有很多企业和研究机构开始重视并从事相关研究，只要用心深耕，就可能成为一个领域的先驱。对于产业界也是一样，具身智能相关的产业目前仍然是多点开花的蓝海时代。

本文来自微信公众号“物联网智库”（ID：iot101），作者：路多，36氪经授权发布。

AI的下一波浪潮，具身智能已经被用钱投票

AI的下一波浪潮，具身智能已经被用钱投票

01 具身智能，就是AI+人形器人吗？

02 具身智能的技术与发展

具身智能技术要素与产业链

仿生或成为解决具身智能难题的宝库

汽车与工业制造领域将成具身智能最早落脚点

03 具身智能发展简史

04 写在最后

Recommend

刘强东无罪，是用钱摆平的吗？

起势的 Serverless，云计算下一浪潮已经到来？

具身认知视角下“智能”的概念

李飞飞划重点的「具身智能」，走到哪一步了？

Brilliant Labs开启具身智能新篇章，获300万美元种子轮融资，开发将AR与生成式AI融合...

具身智能，是机器人的“冷饭热炒”吗？

微亿智造工业机器人践行具身智能发展方向

前华为“天才少年”入局，具身智能新赛开场

AI标志性里程碑：用钱投票，华尔街开始拥抱大模型

这只独角兽核心团队“再出发”，投向具身智能

About Joyk