2022年，毫末智行的3场战役_AI_刘燕_InfoQ精选文章

2022 年，自动驾驶行业的竞争将正式进入下半场。

4 月 19 日，在自动驾驶创企毫末智行举行的“2022 HAOMO AI DAY”上，毫末智行董事长张凯、CEO 顾维灏分享了毫末最新战略、技术、产品进展。

自动驾驶下半场竞争的焦点：城市开放场景的领航智能驾驶

张凯在演讲中表示，“2022 年，国家将出台更多细则规范自动驾驶数据归属及安全；城市 NOH 会将智能驾驶的体验推向新高度；末端物流自动配送处在爆发前夜，头部客户开始进行场景规模化部署。”

基于以上行业洞察和预判，2022 年自动驾驶行业的竞争将正式进入下半场，主要集中在城市开放场景的领航智能驾驶。

“对于毫末来说，2022 年也是非常困难的一年”,张凯表示，如何打赢“数据智能技术之战”、“辅助驾驶城市场景之战”、“末端无人物流车规模之战”三场战役，如何完成超过 30 款不同硬件平台车型的项目交付，且保证交付的产品符合客户预期、具备市场竞争力，是毫末核心管理层在 2022 年初密集研讨的课题。

张凯给出了毫末在智能驾驶下半场的解题思路，即四大致胜法则：有效积累高质量数据；与客户开放式共创，深度绑定发展；在智能驾驶开发和迭代进程中注入用户思维；降本增效，统一全员行动目标：最大程度提升软件复用程度及各环节效率。通过四大致胜法则，毫末已经在业内率先实现了智能驾驶流程化开发和标准化交付。

技术产品新进展和新发布

首个数据智能体系 MANA 进化升级

2021 年 12 月，毫末发布了中国首个数据智能体系 MANA。MANA 是毫末所有产品进化的基石和核心源动力。

时隔 3 个多月后，MANA 在降低成本、提高迭代速度方面迎来多项升级。

顾维灏从“感知智能”、“认知智能”、“成本与速度”等方面详细介绍了 MANA 数据智能体系的最新进化成果：

在“感知智能”方面，MANA 感知能力进步飞快，“让中国没有不能识别的红绿灯和车道线”成为可能。

顾维灏表示，最近一年自动驾驶的感知技术发生了巨大变化，包括芯片算力的几何式增长，Transformer 跨模态模型的出现和 Camera 像素的快速提升。

基础技术的变化驱动着解决方案的改变，毫末开始从第一性原理出发思考新的解决方案，首当其冲的就是解决最有挑战的“红绿灯识别”问题。毫末提出了“双流”感知模型，将红绿灯检测和绑路问题分解成两个通道，让毫末日常乘用车测试实现了重感知下的红绿灯识别。

此外，毫末还在 Transformer 模型方面表现优异，自研 BEV Transfomer 用于车道线识别，通过“目标粗定位”和“属性精细估计”两个阶段实现标注的自动化，在城市道路上实现了多传感器融合车道线识别。

“认知智能”方面，MANA 用机器学习模型替换了传统的手写规则和参数，解决了此前代码臃肿且面对复杂场景容易崩溃失效的问题，使场景决策更具泛化适用性，极大提升了可解释性和泛化能力。

（MANA 的认知进化）

“成本与速度”方面，毫末和阿里巴巴在大模型数据处理技术上合作。毫末智行平台团队和阿里云 PAI-EFLOPS 团队合作，基于 128 卡 A100 集群，实现了 Swin Transformer 模型分布式训练；与阿里团队一起联合创新了包括混合精度优化、算子优化、编译优化等技术，通过大模型训练优化，目前模型训练成本降低 60%，加速比超过 96%，吞吐量超过每秒 40000 个 sample。

此外，毫末已实现标注 AI 自动化率达到 80%，大幅提高了标注效率，降低了标注费用成本。

（MANA 的成本与速度进化）

今年开始国家层面对智能汽车的数据安全提出了明确要求。在用户数据的安全方面，目前毫末在已有的处理网络上都加入了隐私保护和数据安全保障，以充分保护数据安全。

目前，MANA 已完成近 20 万个小时的学习时长，虚拟驾龄相当于人类司机 2 万年。随着时间积累，MANA 会让毫末自动驾驶系统的感知更准确，认知决策更像人类，让标注、仿真验证更高效，不断提高算力利用效率，打造更快、更稳、更安全的自动驾驶系统。

“MANA 已经成为毫末自动驾驶产品进化的核心动能。”顾维灏表示，随着自动驾驶及当前的辅助驾驶的成熟，不仅能够提升整个社会的交通安全，还能够逐步释放驾驶者的驾驶时间，缓解驾驶疲劳，获得出行效用的提升。

首个大规模量产的城市辅助驾驶产品“毫末城市 NOH”首发

伴随乘用车高级别智能驾驶渗透率的不断提升，NOH 智慧领航辅助驾驶系统逐渐走进城市，城市场景智能驾驶正在成为新的兵家必争之地。

从 2021 年起，毫末已经发布两代乘用车辅助驾驶 HPilot 产品，正在按计划有序交付。在此次 HAOMO AI DAY 上，毫末发布了搭载 HPilot3.0 的“毫末城市 NOH”。

毫末方面表示，这是中国第一个大规模量产的城市辅助驾驶产品，第一个重感知的城市辅助驾驶方案，同时也是 2022 年中国第一个最实用高效的城市辅助驾驶产品。

（毫末城市 NOH 发布）

据介绍，“毫末城市 NOH”拥有全面的场景覆盖、顶尖的硬件配置、领先的产品力等多项优势。

场景覆盖层面，该系统可根据导航提供的行驶路线，在城市环境中实现自动变道超车、红绿灯识别与控车、复杂路口通行、无保护左右转等主要功能, 同时也可应对车辆近距离切入、车辆阻塞占道、交叉路口、环岛、隧道、立交桥等复杂的城市交通场景。

硬件层面，该系统配备了一颗 AI 能力 360T、高速缓存 144M、CPU 计算能力达到 200K+ DMIPS 的超高算力芯片；同时还配套 2 个激光雷达、12 个 Camera、5 个毫米波雷达，最大程度实现了整套辅助驾驶感知系统的安全冗余。

产品力层面，搭载该系统的乘用车路口通过率超过 70%、变道成功率超过 90%、交通流处理能力高达 4 级。据了解，在日常测试中，“毫末城市 NOH”的路口通过率等方面领先特斯拉在中国的表现。

据悉，目前“毫末城市 NOH“已经在北京、保定等城市进行深度场景打磨，搭载该系统的车辆也将会在近期正式量产落地。未来，“毫末城市 NOH”功能落地的城市将会超过 100 个，同时搭载乘用车数量将超过 100 万台。

毫末还正式推出了面向乘用车驾驶领域的“6P 开放合作模式”。据张凯在演讲中介绍，毫末选择与车企共创模式，而非供应模式。毫末将提供从全栈解决方案到源代码之间的 6 个产品层面的合作方式，希望重新定义行业的商业模式，实现共赢。

“毫末小魔驼 2.0”首发，末端物流自动配送车价格下探到 10 万元级别

为了推动末端物流自动配送车事业的快速规模化，毫末在活动现场正式发布了中国首款 10 万元级别的末端物流自动配送车产品 — 毫末小魔驼 2.0。

（毫末小魔驼 2.0）

全新的小魔驼 2.0 配备了车规级硬件，ICU 3.0 大算力计算平台，可定制 600L 超大载货空间的货箱；拥有 L4 自动驾驶能力，覆盖混行、拥堵等复杂交通场景，可支持城市开放道路中低速全路况，全程实现无接触配送；此外还具备快速换电、60-100 公里续航里程、智能语音与触摸多模式交互等多项领先功能。

值得一提的是，毫末小魔驼 2.0 还首次将末端物流自动配送车的价格下探到了 12.88 万元。该产品预计在 2022 年 5 月陆续投放市场。

为了满足末端物流自动配送车合作伙伴们高速增长的订单需求，毫末智行位于保定的末端物流自动配送车工厂目前已经全面升级，占地面积扩至 1 万平米，可实现年产 10000 台末端物流自动配送车的产能目标。

核心技术创新点深入解读

4 月 13 日，毫末智行技术总监潘兴在接受 InfoQ 等媒体采访时，详细介绍了毫末智行在自动驾驶技术上的最新进展。

解决红绿灯问题

红绿灯问题，是自动驾驶城市场景中的一个不小的挑战。

在城市里交通场景里，红绿灯遍布。不论是人开车还是自动驾驶车辆，红绿灯都是车辆行驶过程中的重要交互。处理好红绿灯问题，对用户体验和安全至关重要。

在自动驾驶场景解决红绿灯问题，难度很大。因为红绿灯是典型的小目标监测，红绿灯很小，是一个很小的目标。此外，国家虽有一定的标准，但各地红绿灯差异很大，有的是箭头形状，有的是圆灯。此外，红绿灯本身是变化的，有绿、红、黄灯，还有读秒的灯。有时亮灯，有时熄灭状态不规律。

红绿灯还有一个很重要的问题。在城市里，尤其是人车密集的小路口，以及不规则的路口，在（自动驾驶车辆）摄像机的视野里，会同时看到两组、三组红绿灯，哪个红绿灯管车所在的车道？这就需要做出判断，也就是“绑路”。这是一个很难的问题。

Robataxi 公司，如百度、Waymo 等厂商以前的做法是，通过（高精）地图来解决这个问题。

在高精地图里会把红绿灯放进去。这样在地图里就知道，在一个具体的计算机坐标下，哪个地方有红绿灯，这个红绿灯管哪条路等。红绿灯跟道路的关系，都放到了地图中“道路的拓扑”里面，监测时可以跟地图做对照，很容易就知道前面的红绿灯距离车多远，有没有灯，灯管哪条路等。

但在实际的城市场景里，目前其实没有一个高精地图，国家现在也还没有审批通过一版高精地图。在城市场景下，缺少高精地图。Robataxi 公司有一些局部地区的高清地图，但大范围的，例如针对全国上百个城市，上千个县的高精地图目前没有。

在缺少高精地图的情况下，如何解决红绿灯的问题？这是在城市场景下的自动驾驶必须要面对的问题。

针对这个问题，毫末分了两步来解决，第一步是红绿灯的识别，第二步是红绿灯的“绑路”。

对于第一步，在缺少高精地图的情况下，通过数据来让模型表现得更好。这种情况下，如何处理红绿灯的多样性状态的变化，这种数据是很长尾的。全国各个地方不同的红绿灯如果都收集过来，成本很高。因此，毫末给出的方案是，结合仿真。通过仿真场景搭建了各种不同光照、天气、角度等仿真的实际场景。将这些场景的数据反馈到模型上，让模型能学习得更好。

这个过程里，有一个典型的跨 Domain 的学习问题，获得的数据和监测的数据都是现实的数据，仿真数据和现实还有一些差距。这就需要采用迁移学习，毫末利用混合迁移学习来处理和弥合这种差距。这种模型，虽然拿到的数据里有仿真数据，也有真实数据，但学完后，在真实数据上的效果完全可以把仿真数据利用起来。

在迁移学习之前，整个数据包括，合成数据和真实数据分布在各自的维度上。如果直接这样学，模型虽然补充了很多合成的数据，但学习效果并不理想。通过混合迁移学习后，可以看到合成数据和真实数据几乎就被拉齐了。这些虚拟的仿真数据补进去后，在真实世界里，它的表现能自动变好。通过这种方式，就能快速“收敛掉”各式各样的红绿灯。

在红绿灯的绑路问题上，如何知道红绿灯管的是车所在的那条路？这就需要知道红绿灯和道路的拓扑关系。毫末通过检测和模型学习这两个方法，来确定红绿灯所在的位置，以及红绿灯和道路结构的关系，然后做绑定，就可以找到某个红绿灯在道路上的拓扑信息。

通过这种方法，可在没有高精地图的情况下，纯凭感知就能处理、识别红绿灯，知道红绿灯对道路的作用，做出左转、直行、遇红灯等待、夜间、白天等场景下的决策。

Transformer 在车道线感知方面的应用

这两年，Transformer 在自动驾驶的应用逐渐增加。潘兴详细介绍了 Transformer 在车道线感知方面的主要应用进展。

当前自动驾驶学术圈和业界都已经提出了一些模型应用，如检测模型、地图模型、BEV 视角下使用 Transformer 解决多相机之间的融合问题，以及目标的跟踪问题等。毫末在 Transformer 里引入局部 Attention 方法，或者使用多相机之间相互的标定关系，通过 Transformer 很好地把视觉问题在 3D 上得到比较好的答案。

在车道线感知方面，毫末通过 Transformer 来解决城市里复杂车道线的挑战。在城市道路上，尤其在高速以外的道路上，车道线非常复杂，存在各种问题，例如新旧车道线交替重叠、潮汐车道变道频繁等。

面对如此复杂的车道线问题，毫末发现大模型，尤其是 Transformer 这种注意力机制在解决这一问题上很有优势。

例如下图，这是在没有高精地图的情况下，（全车 6 个相机）纯凭感知看到的车道线。可以看到，路段上有车道线的诸多变化，包括消亡、新增、环岛、匝道等，前方还可能会遇到汇入车道、某一段车道线断掉等状况。

在这种复杂的路况下，使用 Transformer 的注意力机制，可以有效地解决多个相机之间的拼接问题，全车 6 个相机都看到了车道线，有旁边的、前面的、后面的... 通过 Transformer 注意力机制，可以很容易地把多个相机的视角拼接起来。而如果不通过模型来学习，只完全通过数学后处理，会出现传感器的标定误差，包括视觉几何本身误差的形象，导致车道线拼起来之后，并不连贯。

此外在时间上，可以看到，在整车行驶过程中，整个车道线非常稳定，不会出现跳变。很多时候对于复杂的车道线，在没有地图作为先验信息时，出现的一个问题是，车道线会因为感知的噪声跳变，可能上一帧车道线在（车）左侧 50 厘米，一秒钟之后的检测结果，这个车道线就跳到左侧 45 厘米。而用户实车会感受到车在蛇行。通过 Transformer 的注意力机制，在空间上会把多个相机做有效拼接。另外在时间上，也可以修正感知本身引发的噪声，也很容易在时序上做到稳定的输出。

使用 Transformer 的机制，通过大模型可以看到整个车道线的输出视野上更远，以及看到车道本身的拓扑结构、准确度。以前小模型一个最大的问题是，经常会出现脑补的情况，比如路口没有车道线，它会补上一个车道线，但有时候会补错。

通过更大的模型，可以在某地做很多更精细化的输出结果，使得整个车道线做到“所见即所得”，即有车道线的地方就有车道线，没有车道线的地方就没有，跟整个道路的拓扑结构更加匹配，便于下游做更精确的规划决策。简单来说，通过 Transformer 这样的大模型，可以有效地做空间以及 3D 视野下时间上的目标检测、车道线的输出等，大大提升整个感知能力。

路线选择：毫末为什么选择重感知的方案？

在城市自动驾驶场景下，红绿灯和车道线是 2 个经典的感知问题。毫末针对这两个问题所提出的技术解决方案，都是在没有高精地图的情况下实现的。

简单理解，高精地图就是，车看到了一些东西后去高精地图里匹配，这样就可以知道车在地图的位置，就很容易拿到周边的环境，包括红绿灯、车道线、路口等信息。

目前有一些自动驾驶厂商，采用了高精地图的解决方案。而毫末选择采用重感知的方案。

潘兴表示，毫末之所以选择重感知的技术方案主要考虑到几个原因，一是前面提到的，城市目前没有高精地图，尽管各家都提交了审图，但即便审图获得通过，高精地图的制作成本很高，且需要很长的周期。而且，做出全国性的高精地图是一个漫长的过程。

相比之下，通过视觉，通过感知，则是一个性价比、时间等成本最优的方案。这一方案，并不是把所有的道路结构信息来源完全寄托在高精地图上，是通过以感知为主的方法，再匹配地图的先验信息。

不过，这并不意味着“轻地图”。潘兴介绍，重感知的方案的核心在于，会以感知看到的客观世界为蓝本，而不是把感知看到的东西拿到地图做匹配，以地图为蓝本。在这个过程中，也会做一些匹配，但用的地图精度不如高精地图。毫末更多是用到地图的拓扑信息，对看到的客观世界做一些修正，提供一些先验的拓扑信息。该方案里的精度信息，是由感知提供的。

“对毫末来说，我们的方案有几个关键的优势，一是大家都在研发阶段，重感知的方案可以在大规模的城市部署。如果是一个重地图的方案，城市范围会比较受限制。我们直接就可以做到全国 100 多个城市有效的部署，所以在范围上具有很大优势。其次我们目前会搭载在长城的很多主力车型上，以长城的体量，在数据的收集方面具有优势。当前自动驾驶有一个持续 OTA 迭代的过程。毫末部署的范围大、车型多、数量多，基于更多的数据，持续迭代的速度也是我们很大的竞争优势”，潘兴说道。

联合阿里 M6 大模型，探索预训练的多模态大模型在自动驾驶的应用

说完了感知层面，接下来是毫末在自动驾驶认知方面的方案。

城市交通还会遇到很多复杂的场景，例如，车辆掉头、和对向车辆的交互问题、汇入车流问题等。在城市道路上，每隔一公里、两公里左右就会有一个路口，每一个路口都会涉及到这些复杂问题。

针对这些问题，如果自动驾驶去解决，不使用人工智能的算法，如果靠传统的罗列规则，这显然会是一个麻烦的过程，要处理绕障，要处理跟直行来车的交互博弈，还要处理一个新的汇入车流，这个过程中会有大量的 If else，这种策略会“爆炸”。因为在城市里，这类场景，微观的观察不同的情况，比如对向来车的速度是多少，绕障的车道是大卡车还是公交，右拐的是工程车还是自行车，这些问题会无限被差乘和放大下去。如果光靠规则，这个问题就很难收敛。其次规则写多了，有时候会自相矛盾，研发人员写了几千条规则，自己可能就混乱了。

因此，毫末提出了 TarsGo，通过模型学习和立体化学习的手段，学习人类司机在这些场景下面的动作，通过模型的形式替代掉原来人工的规则。左拐的交互博弈，环岛，拥挤车流的汇入，压道的变速等问题都涉及到了复杂的决策和轨迹规划，通过模型的方法，可以极大的降低在这个过程中规则的使用。

Tars Go 提供了一个车端的模型，需要大量人类的数据去训练。一个模型想要超过规则的前提，就是它能拿到大量有意义的数据，它学出来的效果才能比规则要好。

这就要提到 MANA 体系的另一个模块，LUCAS Go，它能够提供高价值的人类的驾驶数据。

毫末还和阿里的 M6 大模型合作，探索将预训练的多模态大模型在自动驾驶领域进行应用。

“M6 在自动驾驶领域的应用标志着 AI 模型能力的普惠化，不光能够自己采集车、用户的车传回来的这些量产数据迭代自动驾驶的能力，同样也能够用人们每天都在源源不断产生的生活中的数据，利用其他行业的数据，来迭代自动驾驶的能力”，潘兴说道。

此外，毫末还和阿里达摩院一起基于阿里 PAI 的框架，共同使用 M6，对自动驾驶的数据进行了数据挖掘，并对数据进行可解释的标注。

驾驶数据非常复杂，人类司机每个人都有不同的驾驶风格，在不同场景下会对车有不同的操作。大量的用户在大量场景下的数据如果不能进行可解释性的标注，那么这批数据就会对模型训练带来一些不可预测的影响。因此，想要真实地用好用户的数据，就要对这个用户当时的意图，以及用户的决策行为进行人类可解释的标注。

潘兴介绍，通过使用阿里 M6 大模型，可以对人类司机驾驶的数据进行可解释的标注。通过 M6 预训练多模态的模型，不但能预测人类司机是怎么开的，而且能对司机的动作给出文本集的解释，这个文本集是人类可以理解的。通过数据的后处理，就可以对这些可解释的问题进行归类、清洗和筛选，可以确保自动驾驶算法拿到的数据是“干净”的，符合人类驾驶习惯的，是可以用来训练的数据。通过这种预训练的大模型得到了符合预期的数据，通过这些数据，就可以训练车端智能的算法，替代掉车端大量的规则，进而来迭代自动驾驶的算法。

数据智能：如何解决成本和速度问题

感知和认知是表现在用户可以用到产品上的两个模块，这两个模块背后依托于毫末的 MANA 数据智能的体系来持续迭代和演进。

数据智能很重要的两个指标是成本和速度。

在成本方面，标注成本和训练成本是不能回避的问题。在 AI 领域，标注和训练成本几乎占到了 AI 领域的大头，其中标注更高，占总成本的三分之二甚至是五分之四以上。也就是人们常说的，有多少智能就有多少人工。

“在大量使用数据的同时，必须要考虑如何降低标注成本。只有当标注成本下降了，整个数据智能的体系运转才会更加健康”。据潘兴介绍，在标注方面，目前毫末已具备自动标注能力，通过自动化工具、半自动化工具，可以有效降低在整个图片、点云等数据标注上的成本，约降低 80%以上。以点云为例，毫末的自动标注算法目前已可以处理 4D 点云标注的问题，会在时间和空间上对这些数据进行有效标注，包括障碍物的位置、属性、朝向角、速度等。

此外，在降低训练成本方面，毫末和阿里云进行合作，目前使用 128 张 A110 的卡，针对 1400 万的数据，Transformer2 亿左右的参数，可以做到 4.7 万/秒吞吐的能力。在和阿里的合作中，对整个过程中混合精度的算子，包括编译、通信、网络以及数据 I/O 都进行了优化，整个训练成本下降了 62%，加速比提高到了 96%。

此外，在数据存储方面，毫末也做了很多优化工作。一方面是搭建了整个数据挖掘的体系——LUCAS，LUCAS 会从每天海量用户回传和采集数据里找到感兴趣、有价值的数据，先做一次筛选。接下来，基于筛选的结果，会把这些数据送标、训练、使用、缓存等。基于这些操作，可以对数据进行分级管理，有一些数据会放到硬盘里，有一些数据可能会放到数据库里。通过有效自动化的筛选手段加分级存储策略，可以有效降低数据的存储成本。简单来说，毫末的方法是，先将数据识别出来，再把数据做价值分级，再使用不同的存储方法。

自动驾驶下半场竞争的焦点：城市开放场景的领航智能驾驶

技术产品新进展和新发布

首个数据智能体系 MANA 进化升级

首个大规模量产的城市辅助驾驶产品“毫末城市 NOH”首发

“毫末小魔驼 2.0”首发，末端物流自动配送车价格下探到 10 万元级别

核心技术创新点深入解读

解决红绿灯问题

Transformer 在车道线感知方面的应用

路线选择：毫末为什么选择重感知的方案？

联合阿里 M6 大模型，探索预训练的多模态大模型在自动驾驶的应用

数据智能：如何解决成本和速度问题

Recommend

趋势加强，电动汽车行业将转向先进的 800 伏架构

Razer Leviathan V2 Gives Your Gaming An Audio Upgrade

2022 年优化 SEO 博客文章的 10 个技巧

4000亿香氛蓝海市场，细分化赛道会是一张好牌吗？

Bankless：条条公链通以太坊

配置之外，“无差异体验”才是vivo X80系列的“大招”

How to handle API Changes with #available

什么是 LiteSpeed Web 服务器软件？

130 行代码搞定核酸统计，程序员在抗疫期间的大能量

9 Creative YouTube Cooking Channels to Get Your Kids in the Kitchen

About Joyk

2022年，毫末智行的3场战役_AI_刘燕_InfoQ精选文章

自动驾驶下半场竞争的焦点：城市开放场景的领航智能驾驶

技术产品新进展和新发布

首个数据智能体系 MANA 进化升级

首个大规模量产的城市辅助驾驶产品“毫末城市 NOH”首发

“毫末小魔驼 2.0”首发，末端物流自动配送车价格下探到 10 万元级别

核心技术创新点深入解读

解决红绿灯问题

Transformer 在车道线感知方面的应用

路线选择 ：毫末为什么选择重感知的方案？

联合阿里 M6 大模型，探索预训练的多模态大模型在自动驾驶的应用

数据智能：如何解决成本和速度问题

Recommend

About Joyk

路线选择：毫末为什么选择重感知的方案？