1

极越夏一平:未来汽车的 OS,就是大模型

 8 months ago
source link: https://www.geekpark.net/news/329543
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

极越夏一平:未来汽车的 OS,就是大模型

2023/12/26
60a00af2a380ea4d260aaa458bc3f75f.png

真正未来的智能汽车,是机器人。

「电动化带来的不只是能源的变化,这也是为什么极越觉得现在进入汽车行业也不晚。」

10 月 27 日,极越品牌旗下首款车型极越 01 正式上市,一个多月后的极客公园创新大会 2024 上,集度 CEO、极越 CEO 夏一平就表示他们有信心,哪怕不久后特斯拉的自动驾驶将进入中国,但在智能驾驶体验上,极越将比特斯拉做得更好。

在 12 月 16 日举办的极客公园创新大会 2024 上,夏一平介绍了「极越」这个让大多数人还有些陌生的汽车品牌。背靠在智能驾驶深耕多年的百度,极越在业内第一个提出「汽车机器人」的概念,其内核是载人机器人。这正是极越与其他新能源汽车品牌的不同之处。

夏一平认为,智能化的汽车就是可以自然交流、自由移动、自我成长的「机器人」,汽车将从过去冰冷的机器,变成有温度的伙伴

而在新能源汽车行业「风生卷起」的当下,夏一平和团队的思考回归到了智能汽车本身:电动化较之化学能源,带来的不只是能源变化,而是范式转换。未来汽车比拼的底层,已经从操控变成了算力的竞争。

在各家比拼续航、三电、操控之时,极越在思考车真正智能化的方向:智能不只是功能堆叠,也不是把车机当成大屏手机,而是充分利用高算力芯片,把车当成一个完整的智能体,衔接上大模型的应用,如同机器人一般,调动起它的「全部感官」。

当各家都在比拼智能驾驶「开城大战」时,夏一平认为光看数字意义不大,而是要看智驾能覆盖的范围。当特斯拉的 FSD(全自动智能驾驶)入华的新闻传来时,夏一平认为在中国,极越的智驾有信心做的比特斯拉更好

以下是夏一平在极客公园创新大会 2024 上的演讲实录,由极客公园整理

智能车,如何进化成「机器人」

极越 01 在极客公园创新大会 2024 现场进行展示|极客公园

张鹏:极越 01 已经上市,很多人对于车的理解没那么专业,你作为产品的创造者解读一下,在极越 01 的设计上是怎么思考的?

夏一平:极越这个品牌在诞生之初,品牌、服务、产品这三个体系就按照一整套的规范去打造。核心是希望突出它的科技感,所以无论是整车和品牌,还是线下门店和服务,我们在设计上融入了很多机器人相关的概念。

我们设计师最早在设计汽车时,按照三个方向,第一是机器人化有未来感,这个车不是简单的一台冰冷的机器,它怎么跟人产生情感交流。

第二是未来汽车发展的形态。你要思考机器人拥有什么样的能力才能被称之为机器人,不管它是四个轮子汽车形态,还是两足、四足或是人形机器人,它跟人类共存的时候要具备基本的能力,比如自然语言交流,所以我们比较强调自然交流。我们认为不管在任何的场景下,所有形态的机器人一定要实现自我行走,它本质上就是自动驾驶。

第三点很重要,它必须可以基于数据和场景自我学习和迭代

这三点是我们公司开发产品的三大定律,也是我们对产品最底层最核心的定义:自然交流、自由移动、自我成长。硬件、底层的架构、软件的智能化,再到上层各种模型的融合应用,都是围绕着这三个最核心的逻辑去打造的。

张鹏:之前大家可能还没有在车和机器人两者之间产生很强烈的关联,以前一说机器人就是扫地机器人,你认为在一个家庭里,车其实就是机器人,车跟人有了关系的变化,这种关系到底变化在哪?

夏一平:过去我们在使用车的时候,是我们在驾驶它,操纵它。而现在,车已经不再是一个冰冷的机器,它更多是一个伙伴。我们的车语音助手叫 SIMO,就很多车主会认为 SIMO 是一个有人性和感情的伙伴。

张鹏:类似于助理的角色。

夏一平:对,因为不止车内可以交互,车外也可以交互,所以本质上它不是一个简单的接收指令的系统,而能跟人产生交互的感觉。

张鹏:在车外能交互是一个改变人车关系的重要点,车内交互时我会当它是助理,但人在车外,车也能理解我吗?

夏一平:是。差不多 2008、2009 年,智能汽车开始做语音交互,你会发现第一波做车内语音的时候,那时候我们觉得已经做得很强了。但那个时代没人用语音交互,当时不像现在,你在车里可以随便说语音指令,现在的语音系统能理解自然语言。当时的用户必须记住每一条语音指令,这设计非常反人性而且用户体验也不好。现在语音是交互性的,而且还不是人和机器的交互,而是非常拟人化的交互。

张鹏:能够自由的沟通,就会改变和拉近人车关系。

夏一平:对,所以我们在三大定义里的自然交流,是近乎于跟人对话一样跟车自然交流。这是为什么我们很强调交流的速度,在我们车里,你用语音跟车机交互的反应的速度在 500 毫秒到 700 毫秒之间,基本上等同于我们俩现在对谈的反应速度。

张鹏:人车关系的改变是可以被一些数据和明确的指标衡量吗?比如反馈的速度和语言交流的自然程度。

夏一平:是的。

773ac81d7e3a4fc9186bddb25120eebf.png

集度 CEO、极越 CEO 夏一平和极客公园创始人兼总裁张鹏探讨汽车的智能化转向|极客公园

张鹏:智能汽车开发的范式,在今天发生了什么变化吗?

夏一平:分两个层面,2021 年 6 月我们正式开始启动极越 01 这个项目,那时只有三个人,极越 01 的第一行智能化代码到今天软件系统完成,是我们在两年期间里做出来的。

这里面很大的挑战来自于两个方面,第一是我们内部的软件团队是以周为单位来做软件,一个版本开发,一个版本测试,一个版本上车。但不是所有下游的产业链合作伙伴都能够跟得上这种速度。过去汽车行业开发是一个微型模型,你给他一个需求,它要经过需求的解读、研发、单元测试、集成测试、上车测试,最后才能把软件给你,这个周期很长。

所以不可能让合作伙伴也以周为单位给我交付新版本。我们在中间有一段时间,整个团队代码的 Bug 量累计到了一万多,因为底层很多传统的汽车的 MCU(电机控制单元)的控制逻辑没解决,导致上游积累了很多应用的问题。

张鹏:光靠一个体系跟着你走,你自己想快也快不起来。

夏一平:是,我觉得在新时代下,跟产业链整体的合作伙伴在一个步伐上造车真的很有挑战。

第二个挑战在于,现在汽车开发复杂度比以前高了很多。假设我们把过去整个开发看成一个方程式,它是比较固定的,但是你在 AI 时代,变量的结果可能是有各种可能性,而且可能性的出现的比例很大

因为比如一个左转动作,左转时光照、天气情况、有没有人、路况怎样、有没有车……同样一个左转,结果就非常不一样。

张鹏:所以这事怎么解呢?

夏一平:第一,我们现在叫泛化城市,需要实车跑大量路面测试。

第二,要做到快速软件迭代,我们车上有一个功能,你在车上说「SIMO,我要报一个问题」就可以把开车过程中遇到的所有问题,通过语音系统报上来。我们会直接在系统里面生成一个程序,把这个问题通过系统自动分配给它出现问题的工程师,不需要中间还有一个产品经理去做问题分发。

张鹏:那你这个真的很极客,随时报 Bug

夏一平:而且用户在手机端就可以看到 Bug 解决的进程。

张鹏:很极客。

夏一平:这个时代必须快速迭代,我们本月底会发布 1.3 版本的 OTA,光功能就加了四百多个,我们就是在用这种方式加快软件迭代。不可能我哪天左转突然发现很危险的问题,还得等半年时间让软件迭代。

极越没迟到,时机刚刚好

张鹏:我再问一个大家可能关心的点,你们今年 10 月底开始交车晚不晚?汽车行业已经很卷了,交付上有没有压力?

夏一平:压力肯定是有的,没有压力也不正常。我们一个很重要认知是:整个汽车行业的发展,从当年的油车到电动化,再从电动化早期大家比续航、三电、操控,现在在往智能化方面走,范式变化很大,电动化带来的不只是能源的变化。

在油车时代,我们很多的操控系统像是液压转向、液压加速,本质上是用化学物质操控。从长期发展来讲,自动驾驶系统很难靠化学物质控制精度。当纯电出来之后,把整个汽车的底层架构全部数字化,化学状态更容易不可控的要素,数字化把它变得更线性。所以现在的数字底盘、数字转向、数控转向、数控刹车,这些都是来解决整个车的数字化。

数字化解决之后是供电方式的变化。过去油车靠 12 伏小电池供电,发动机不开都不敢开空调,因为小电池无法长时间供电。但电车有可以高压供电的大电池,在不启动车的时就能在车内听音乐、吹空调、看电影、打游戏。这是在油车时代无法享受的体验,除非发动机一直开着,但你也很难开着发动机睡觉,噪音太大。

当整个电车全部被数字化之后,大家比拼的是什么?这是我们要去思考的。我们认为未来 5-10 年汽车产业发展的巅峰是无人化自动驾驶。未来 10 年比拼的核心能力,已经从过去的三电、操控性逐渐到了比拼算法、算力。在今天,百度对大模型、数据、地图、算力的应用,让它具备未来智能汽车全链路上所有的核心竞争力,这也是为什么我们觉得现在进入这个行业也不晚。

汽车在过去很长一段时间里算力非常低,在 2022 年底和 2023 年出现了两个芯片,对整个行业产生很大影响。

一个是(高通)座舱 8295 芯片,这是汽车行业有史以来第一次在算力上超过手机。以前在(高通)8155 时代,汽车算力比手机弱很多,也不能同时支持座舱和智驾的大算力。另一个(英伟达)Orin 芯片有 254 TOPS 的算力。正是这两个芯片的出现,得以让过去只能在云端或者在高算力 PC 上跑的算法,能在车规级芯片上落地。如果没有这两个芯片,所谓智能化汽车还只是在功能上叠加,不能真正叫智能汽车,正是有了这两个芯片,才有可能从底层软件到上层应用,重构整个智能汽车。

张鹏:听你刚才描述算力的变化,有点像当年我们谈论移动互联网何时到来,4G 的出现解决了带宽到数据的成本问题,移动互联网因此蓬勃发展起来。所以,汽车智能化会因为这两个关键的算力芯片到位,在接下来进一步提速?

夏一平:一定会进一步提速。现在 ChatGPT 背后逻辑也是因为服务器侧的算力快速提升,成本快速降低。汽车也是一样,可能今天我们用 8295 和 Orin 成本还是比较高,但是我相信未来一定是靠它们的算力(降低成本)。我们刚开始用 254 TOPS 芯片的时候,英伟达就推出了 1000 TOPS 的算力平台。

我们的长期判断,当整个行业越来越智能化时,芯片迭代速度也会非常快,我们才用上 8295,8795 就出来了。大家对技术发展理解一致,就看行业发展能不能跟得上芯片发展速度,毕竟汽车还是再快也要注重安全性的产品,半年开发一款新车的可能性不大,至少都得经过两年时间才能开发一款新车。怎样把科技和整车架构衔接起来,我觉得这是整个行业下一步需要解决的问题。

44cb45ab20ad7a79c169083671b359ec.png

夏一平认为极越进入汽车的时机刚刚好|极客公园

张鹏:那你来得刚刚好,正赶上了一个时代的切换。

夏一平:我觉得刚刚好,如果再早几年,你让我造一台这样的车,我没有这么大的信心,最多就做一个跟其他车差不多的产品。因为当时就只有 8155 的芯片,差不多 7.5 TOPS 左右的算力,连复杂的 3D 渲染都做不了。我们之所以今天有能力直接基于 Unity 的 3D 引擎做 UI 开发,从视觉上对车进行 3D 渲染还原,能支持 6K 大屏全屏游戏,再到今天的智能驾驶,都是因为车规级芯片能力的大幅提升。

张鹏:之前的技术只能把智能当成智能功能的堆叠,但还不具备做一台「机器人」的能力。

夏一平:我觉得这是两种思路,一种是把智能化当做功能做到车里面去。另一个是正向思考:我做一台智能汽车,应该怎么去开发,这两个产品有天壤之别。

论智驾,极越能赢特斯拉

张鹏:再说一个比较直接的问题,特斯拉的 FSDFull Self-Driving Computer,全自动驾驶)也要进中国了,你们在自动驾驶层面上进展如何?怎么衡量和特斯拉之间的距离?能和特斯拉同场竞技吗?

夏一平:我们的智能驾驶很大一部分是衍生自百度 Apollo L4(级别)的 RoboTaxi(自动驾驶出租车),很多方面的能力是很强的,毕竟在中国能够做规模化无人车运营的,可能只有百度一家。在过去很长一段时间里,百度积累的不止是智驾技术经验,还有安全经验,即怎么做智驾是最安全的。

同时,为了保证长期的自动驾驶技术泛化性,我们车上用了纯视觉的技术方案,目前在中国肯定是第一梯队。目前全球只有两家在做智驾,一个是特斯拉,一个是我们。如果特斯拉 FSD 进中国,我们有信心比他们要强。因为我个人也经常去美国试他们的产品,他们在美国确实比较厉害。但在中国,最大的挑战是中国的路况——中国城市道路结构、道路规则,甚至红绿灯识别语义都和美国不一样。在泛化性这件事情上,特斯拉需要解决的问题还有很多。特斯拉对于一些通用场景的解决能力一定是比较强的,但不代表放到中国立马就可以应用。

所以,我觉得特斯拉进入中国之后,要花很长时间去提升它在中国的泛化能力。在城市的高阶智驾体验上,我并不觉得它马上就能做到跟我们一模一样的体验。

张鹏:我再追问一下,最近大家在车圈里聊 NOA(领航辅助驾驶)聊的很多,以后 NOA 会是核心看点吗?

夏一平:我认为长期来看,一个好的自动驾驶一定是以覆盖率为导向。

但一些企业把它当成一种营销手段,就不太合适了。我们现在的智驾已经覆盖了全中国 90% 的高速和城市高架,甚至是快速路,这是什么概念?如果智驾能够覆盖城市高架和城市快速路就算开辟了一座城的话,我们在中国已开超过 200 

但是,我还是要强调一下智驾的安全性,我们在拥抱一个非常好的智能化时代,但不宜在这个时刻让用户产生过高预期,因为智能驾驶还是非常有挑战性,解决自动驾驶问题是人类 AI 历史上的明珠,不是简简单单靠一个几百人团队很快就能把事情做出来的。特别在自动驾驶 AI 泛化性上,很具有挑战性,不能一蹴而就。

我觉得从长期来看,智驾需要覆盖更多的区域才是好的服务。为什么我们未来会做按日订阅的模式,逻辑很简单,你有什么样的能力给大家提供智驾,覆盖了什么区域,用户会基于你的能力付费

比如我在一个没有智驾覆盖的三四线城市里生活,但是我今天要走高速去另一个城市出差。我们的智驾覆盖了全程的高速高架,那就可以买一天的服务。要出去自驾游七天的时候,用户就买个七天包。我是基于服务能力给大家提供服务,不是花大钱终身买断后发现各种地方都没有覆盖服务,用户就会想为什么要花那么多钱买一个这么多年都用不上的服务。

张鹏:所以本质上更务实一点,哪怕就这一段路能用智驾解决,用户可以选择用或不用,而不是空放个数字和概念。

夏一平:是的,我觉得数字没有任何的意义,如果把智驾当做一个服务,我要考虑能给用户在多大的区域里服务。

未来汽车的 OS,就是大模型

张鹏:我再追问一个问题,刚才聊到汽车机器人这个产品定义的概念,极越的车里也很大胆地取消了很多物理按键。你担不担心用户觉得这种设计太激进了,你怎么面对这个问题?

夏一平:在产品研发的过程中,纠结过很多次。曾经有一段时间我都很怀疑,我经常在反思,我们是不是做的过于超前了?但是整个团队还是比较坚定,说实话,创新有时候就是这样,当你做创新的时候,一定有反共识的东西存在。如果创新都基于共识的话,那这个产品一定是平庸的。

就像我们取消方向盘上的很多按键,把转向灯放到方向盘上,选择用屏幕换档。可能大家觉得我们是在学别人,但学要学思考,不能只学个模样。我们背后的思考很简单,过去我们所有的应用都是经由手机 OS,应用本质上是一个交互模式。很多汽车公司要和手机厂商合作,本质上就在想能不能把手机应用搬到车机上。但我们的观点是,未来 3-5 年应该是大模型的时代,大模型就是一个 OS,过去的很多应用都要重写在大模型上,交互模式会发生变化,整个中间的交互过程会被省略,只要问它,它就会反馈结果,这是完全颠覆式的变革。

这里剧透一下,明年我们第二款车上市时,整个模型会迭代到 2.0。语音系统会比现在更强,现在的语音系统是基于四个小模型,明年第二款车上会完全变成一个大模型,中间小模型直接全部干掉,不需要识别在哪个区,语音输入之后直接出结果。明年还会做多模态,图片和语音同时识别。智驾在明年也会迭代一版,逐渐变成机器学习。我不是在这里画饼,我们会让应用直接上车。

在今天,我们把车看成机器人,它的所有镜头就是它的眼睛,它很多的传感器就是各种触角,麦克风就是它的耳朵,喇叭就是它对外发声的嘴,交互的智能化核心算法就是大脑。我们智驾全域都是用一套视觉系统。同时我们把视觉的算法系统放到各种应用里,大灯、远近灯光切换也是用同一套视觉系统。举个例子,我们有两个后向摄像头,当后方有电动车来的时候,门是开不了的。

张鹏:防止「开门杀」。

c65fcb65fa41456493eddae8c948a5ce.png

夏一平认为大模型,才是未来汽车真正的 OS|极客公园

夏一平:对,我们同一套视觉系统已经下放到了很多应用里,下一步的视觉释放是换档和左右转向,下一版软件会把转向半自动化,视觉系统完全可以识别用户什么时候左转,什么时候右转,什么时候左转完,什么时候右转完。

我们是有思考而不是拍着脑袋就做了这些设计,这些能力都是预埋的。在月底的软件发布后,会把左右转向按键做到半自动化。

我们能识别进入车道前后自动打灭灯,下一步就是自动化拨杆,左转或右转不是用转向角度来判断,而是用视觉去判断进入哪边车道,再来判断左右转。未来开车的时候,用户不需要关注车是打左转灯还是打右转灯,也不需要关注灭灯。

同样的能力我们还能下放到换挡,在很多场景下完全能够判断用户要前进还是后退,用同一套的视觉系统就能完全识别。类似的功能还有很多,很多算法的能力不是只能做一件事,而是让同一套视觉算法尽可能让车去实现更多的场景,这才是真正未来的智能汽车,这才是真正的智能机器人,它的视觉不止是做一件事,而是来做所有需要视觉去实现的事。

张鹏:到最后它本身是一个智能体,车就是智能的实体。在这个层面,确实需要更大胆,更非共识地推进。

夏一平:我相信这一类现在看起来有违背于现实的非共识,比如自动拨杆,一旦做成后一定可以替代上下拨杆。从交互体验上看,不需要人操作和让人左右拨杆相比,一定是不需要操作的体验感更好,而且用户一定会接受,因为用户永远会为好的体验买单。这也是为什么我们笃信,好的技术带来的体验上的壁垒一定会让产品成为最好的产品。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK