2

数据驱动如何实现量产辅助驾驶进阶?毫末智行给出一套“标准答案”-品玩

 1 year ago
source link: https://www.pingwest.com/a/273217
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据驱动如何实现量产辅助驾驶进阶?毫末智行给出一套“标准答案”-品玩业界动态

数据驱动如何实现量产辅助驾驶进阶?毫末智行给出一套“标准答案”

2022年行至年终,就在外界纷纷惊呼自动驾驶步入寒冬的时候,中国自动驾驶行业实则是迎来了新前景。

首先是自动驾驶路线之争的结束。跨越式路线主动将L4技术释放到辅助驾驶赛道,以实现大规模的数据积累,渐进式路线则继续以量产乘用车为载体,获得规模数据优势,加速布局城市辅助驾驶场景。

国外头部玩家特斯拉,国内新势力代表的蔚小理,国内本土自动驾驶公司毫末智行、华为等更成为主机厂迈入量产智能驾驶的代表。

article-body

就在这个时间点上,毫末智行率先喊出了“自动驾驶3.0时代”的观点。

自动驾驶3.0时代是相较于之前的硬件驱动的1.0和当下的软件驱动的2.0时代,就是在突破软硬件时代的技术禁锢后,进入到以数据驱动为代表,采用大数据、大模型,标志性特点就是智能驾驶行驶里程要达到1亿公里,感知以多模态传感器联合输出结果,认知以可解释的场景化驾驶常识。

3.0时代的标志,可以用“大数据+大模型+大算力”概括。从这时开始,自动驾驶获取的数据量与数据多样性将呈现指数级膨胀,而云端大模型的作用也将由此得到更进一步显现。在深度学习主导中,大数据与大模型相辅相成,真正去解决自动驾驶最后的长尾难题。

那么问题来了,自动驾驶公司如何适应3.0时代的挑战,如何实现数据驱动自动驾驶技术的迭代升级?

毫末智行在这里不仅提出了问题,也同样给出了答案。下面我们就看下毫末在数据智能上的一些思考。

article-body

如同早晚高峰时段拥堵的通勤道路一样,最难的并不是道路能够容纳多少车辆,而是如何能够快速疏解车辆。对于数据来说,如何提升数据处理效率已经越发重要,尤其在面对3.0时代的1亿公里自动驾驶场景数据时,以当前的数据标注、训练及仿真能力根本无力应对如此规模的数据。

想要建立数据闭环、实现量产辅助驾驶向自动驾驶得更快速度迭代,首先就必须得掌握足够强大的数据处理能力。考虑到人工及自动标注&训练的提升空间终究是有限的,毫末智行提出了迎接自动驾驶3.0时代的总体策略:在尽可能提升传统数据处理能力的基础上,采用更高效的方式,充分发挥出毫末智行数据规模的优势。

一、自监督学习,解决数据标注效率难题

在这之中,第一个问题就是如何解放标注能力。在传统数据处理过程中,由终端获取的数据首先要通过人工或自动标注,才会被运用到接下来的感知结果输出或算法模型训练中。

在这一模式下,数据处理效率首先就将被标注效率所控制,而增加人工、自动标注效率的方法是有限的,这不仅会大幅增加标注成本,最终也还是无法满足1亿公里后的海量数据。

article-body

对此,毫末智行决定引入无标注的自监督学习。这一模式的主要逻辑是,以引入大模型的方式统一所有感知任务的backbone,再使用以无标注数据为主的数据进行预训练,使其获得能够使用无标注数据训练的能力,而少量经过标注的数据也会参与到这一过程中,对大模型的剩余部分进行训练。

这样做的效果是显而易见的,首先是成功扩大了大模型在自动驾驶中的使用范围,其次则是在这一基础上实现了无数据标注的自监督学习。毫末智行介绍到,由此能够更有效迫使模型理解道路场景的三维结构,从而更好地适应自动驾驶的各种感知任务需求,且训练效率与精度也有了显著提升。

二、增量式学习,加速新数据训练进程

第二个问题是,如何让数据库始终对新数据保持敏感度。在突破1亿公里后,毫末智行的数据库将膨胀到前所未有的规模,而此时如果从终端获取到了重要的corner case数据,则可能出现两个隐患:

第一个隐患是,由于体量差距悬殊,新数据在加入数据库的一瞬间,可能会被立刻稀释掉,导致算法模型无法从corner case数据中得到应有的训练效果;第二个隐患则是,训练整个数据库的成本过高,既占用算力,又消耗时间,算是一种“笨办法”。

article-body

为此,毫末智行选择引入增量式学习训练平台,这一方法的逻辑是,从数据库中抽取出一小部分,再结合新数据进行训练。在这一过程中,带有新数据的数据集训练结果将会与旧数据的数据库保持一致,由此既带来了同样的训练结果,又提升了训练效率。

三、真实场景仿真,让训练效果更逼真

前两个问题旨在提升训练效率,第三个问题则在于如何提升训练效果。通过仿真系统进行训练已经成为了自动驾驶企业验证算法、加速迭代的重要途径,但仿真世界是否逼真,能够仿真多少真实的复杂场景,也会对训练起到决定性影响。

article-body

对此,毫末智行选择与阿里和德清政府合作,通过向仿真系统中引入真实的交通流,提升仿真系统的仿真能力。经过更多样、更真实的仿真系统训练,得到的算法模型在安全性、舒适性与高效性方面自然也更有保障。

四、时序Transformer提供实时场景建模能力

第四个问题也是特斯拉、毫末智行、小鹏选择“重感知”的重要原因,因为在大模型得到广泛运用前,自动驾驶的算法模型多为独立制作的小模型,这些小模型不仅效率低下,彼此也缺乏通用性,很难作为整体进行协同高效的运行。

Transformer大模型的到来,改变了这一现状。相较小模型,Transformer对数据量有着极高的饱和区间,并且具备并行计算的能力,这使得其能够带来更高效的训练效率,并且数据量越大,效率越高。

article-body

另一方面,如果首先使用大数据对Transformer进行预训练,再基于验证后的大模型去训练其它模型,此前通用性过低的问题也将随之化解,因为所有的模型都“师出同门”。

除了以上这两点,Transformer的优势还有很多,例如在具备并行能力的基础上,还兼顾不错的时序预测能力,这使其能够在诸如车道线中断、重合、消失的情况下还能建立拓扑关系,以保持自动驾驶;此外,即使摄像头视线因障碍物、极端天气导致被遮挡,Transformer也能给予更高的鲁棒性与泛化性,提升自动驾驶的稳定性。

article-body

具体到毫末智行,其解决方案就是使用Transformer建立强感知的时空理解能力。通过在BEV空间上做虚拟实时建图,让诸如感知车道线这样的项目输出更加准确和稳定,与此同时对障碍物的判断也能更准确。

最终,毫末智行不仅借助Transformer大模型建立起了带有时序特征的3D感知空间,还实现了对多摄像头图像的更真实融合,并由此提高了车道线识别与红绿灯绑路能力,“重感知”路线也得以像顺水推舟一样,在这一系列的提升中得到了实现。

五、感知交互更丰富,运动决策更像人

最后两个问题建立在前四个问题带来的解决方案上,也是大众最终评判自动驾驶效果的关键,即如何让自动驾驶表现得更加拟人化。和人类驾驶的思维逻辑不同,自动驾驶对人类世界的交互窗口并不感冒,比如前车的刹车灯和转向灯,如果不参考这些数据,其输出的规控策略很难说足够拟人。

此外,人类的驾驶过程是连续的,场景与决策也是实时且多样的,而自动驾驶负责输出规控策略的模型却是分场景的,彼此之间衔接差异很大,这显然也不符合人类驾驶的逻辑,其结果也必然像是缝合怪一样,让驾驶者和乘客难以接受。

article-body

这两个问题的答案,同样来自大模型。在此之前,毫末智行已经实现了对红绿灯的识别,而在之后,则会加强对车灯在内的更多人类交互窗口的识别;此外,使用大模型来逐步取代小模型,也能够统一自动驾驶输出的规控策略风格,由此逐步化解长尾难题。

article-body

经过对数据标注、训练、仿真能力的提升,毫末智行为1亿公里后的海量数据提供了一套能力匹配的数据处理系统,由此实现数据闭环的搭建;而在此之后,毫末智行的认知能力也将得到不断提升,由corner case数据带来的长尾难题也将被逐步化解,直到彻底消失。到那时,毫末智行也将彻底完成从量产辅助驾驶到完全自动驾驶的质变。

此外,毫末智行也一直在进行云端超算中心的搭建,这将为其更快进入自动驾驶3.0时代,建立“大数据+大模型+大算力”的组合提供算力支撑。

毫末智行从成立起,就确立了基于量产乘用车辅助驾驶产品、以数据智能为核心的自动驾驶发展路线,这使其能够在层层竞争中突围,成为仅次于特斯拉的渐进式头部自动驾驶企业。除此之外,毫末智行也始终在坚定执行这一发展路线,这又使其能够不断深研重感知的高阶辅助驾驶技术,为自动驾驶行业发展提供借鉴。

当前,特斯拉、毫末智行、小鹏、华为等自动驾驶代表玩家在“重感知”路线达成共识,由渐进式路线所引导的数据驱动已成趋势。想必未来更多自动驾驶企业也把数据闭环当做核心任务,加速从2.0时代跃迁到硕果丰收的3.0时代。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK