4

自动驾驶算力之争 从天上卷到地上了

 1 year ago
source link: http://www.dostor.com/p/82454.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

自动驾驶算力之争 从天上卷到地上了-存储在线

当前位置:存储在线 > 新闻 > 正文

在量产自动驾驶方向,特斯拉是当之无愧的领军者。

不管是产品定义、产品命名,还是下一阶段的发展方向,都是特斯拉在引领全球车企和自动驾驶公司发展。

特斯拉自动驾驶系统的优异表现是算法的胜利,但算法背后,算力同样重要。

这方面特斯拉实际上是掀起了三波浪潮,从车端算力到云端算力,再到AI智算中心…每一次算力的迭代,都促进了特斯拉自动驾驶系统迈上新的台阶。

现在,中国车企在车端算力上动辄数千TOPS,已经大幅超过特斯拉,接下来就是要在车外算力上去追赶了。

一、自动驾驶越来越卷 车外算力成新热点

今年8月份,内蒙古乌兰察布已经有了一丝丝凉意。虽然街上人不多,但在一间酒店会议室里却聚集起了省市区三级领导,共同见证小鹏汽车的自动驾驶AI智算中心“扶摇”揭牌。

2022122915090902.001.png

▲小鹏自动加速智算中心启动仪式

该中心由小鹏和阿里联合出资打造。据小鹏汽车CEO何小鹏介绍,该中心具备60亿亿次浮点运算能力(60000TFLOPs),可将自动驾驶算法的模型训练时间提速170倍,并且未来还具备10~100倍的算力提升空间。

就在小鹏“扶摇”官宣后的1个多月,长城旗下的自动驾驶公司毫末智行也宣布将打造属于自己的AI智算中心。毫末智行CEO顾维灏表示,该中心的目标是满足千亿参数大模型的训练,训练100万Clips的数据,训练成本降低200倍。

在这两个案例之外,智己汽车在6月份公布了和阿里云联合打造的“云上数据超级工厂”,这是跟小鹏“扶摇”类似的AI计算中心;10月份的特斯拉AI Day上,特斯拉也展示了自有AI计算中心的最新进展,用自研的D1芯片打造的计算设备能够提升30%的模型训练效率…

毫无疑问,车外算力已经成了车载自动驾驶芯片之外,车企和自动驾驶公司们竞争的新焦点。

二、AI技术越用越多 算力是核心竞争力

车外算力成为新焦点,与自动驾驶算法的演进趋势密切相关。

过去10年来,面向量产的L2自动驾驶系统在特斯拉的带动下发生了一系列变化:在单车道居中智能巡航的基础功能上,增加了指令式或全自动变道功能,以此为基础又衍生出了自动导航辅助驾驶系统——设定好目的地后,车辆在高速上智能巡航,并知道何时驶下高速。

在自动导航辅助驾驶过程中,车辆需要时刻感知周边车辆,并自动做出变道决策。这与此前的单车道巡航功能相比,难度直接提升了一个数量级,进而也逼着自动驾驶算法从固定的“规则算法”向着数据驱动的AI算法转变。

随着算法越来越成熟,最近一两年高速场景的自动驾驶系统已经不再是车企宣传的重点,各家转而开始比拼城市场景的点到点自动驾驶能力。

与高速自动导航辅助驾驶相比,城市内行车又涉及到了红绿灯、十字路口、行人电动车、遮挡、固定障碍物等一系列难题,复杂度又提升了好几个数量级。

为了解决这些新问题,车企和自动驾驶公司给汽车引入了更多的传感器,高精地图、半固态激光雷达、4D成像毫米波雷达纷纷上车,且背后的算法也得进一步升级——以前是从规则到AI,现在是从简单AI到高级AI。

在特斯拉的带动下,过去量产自动驾驶常见的后融合算法逐渐被抛弃,转而使用前融合的BEV算法,把摄像头的感知到的画面直接扔进AI算法里,生成一个鸟瞰视角的3D空间,并在这个空间内输出感知结果。

因为是所有摄像头统一在3D空间里输出感知目标,BEV算法很好的解决了跨摄像头的识别问题,在处理近距离加塞这种行业难题时有了更好的表现。

这还没完。因为量产车搭载的自动驾驶芯片算力相对有限,车企和自动驾驶公司还在积极使用多任务神经网络,比如特斯拉的HydraNet,就是让一套AI算法同时输出多个结果。

大家使用的AI算法越来越高级,给行业也带来了两个重要变化:

一是需要越来越多的数据来培育算法背后的神经网络,算法之间的竞争逐步变成了数据之争。

二是海量数据需要海量的存储和处理能力,车企和自动驾驶公司对专用的AI计算设备的需求量持续增长。

多位自动驾驶技术专家都曾告诉车东西,AI技术进步很快,大家在算法和模型层面的差距其实并不大,真正拉开差距的是数据收集和处理能力。

正是如此,我们才看到了车企和自动驾驶公司们在今年纷纷宣布了自建AI计算中心的消息,疯狂卷起了车外算力。

三、车外算力不只有云 特斯拉打响算力

看到这里你肯定该提问了,现在云服务这么方便,算力要多少有多少,租云不就好了吗?为啥要费劲自建AI计算中心呢?

这里需要从成本和技术两个维度考量。

先说经济性。据车东西了解,目前车企和自动驾驶公司每年在云计算方面花费的资金普遍在数千万元,头部玩家上亿也很常见,且随着数据量的日益增长,在AI计算方面的投资也在水涨船高。

据IDC统计,2022年自动驾驶相关公司对AI计算的投资全部在增长,并且有28%的企业投资增长幅度超过30%。

2022122915090902.002.png
▲2022年自动驾驶行业对AI计算投资趋势

如果持续使用公有云服务,显然存在边际成本不断上涨的问题。

而若是自行采购设备组建AI计算中心,一次性投资约在数千万到1亿元以内,长期来看性价比更高。

当然这里也有个前提,那就是企业的数据处理、模型训练流程得相对固定才行。如果还处于研发早期,AI算力需求不固定,那还是使用具有弹性的公有云最合适。

技术层面,自建AI计算中心也更具优势。

云计算的本质是租赁计算设备。云服务商的设备都是统一采购——目标是具备最大的通用性(这样才能获得更多客户)。所以其设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。

另一方面,云服务厂商对自动驾驶算法的了解程度不高,其使用的管理软件在调度AI计算设备集群时难免会出现损耗和效率不高的问题。

这导致在理论算力一定的情况下,其训练AI模型需要更多的时间。

作为量产自动驾驶方面的领头羊,特斯拉是深知专用AI算力的重要性。

其在多年前就开始打造了属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。

特斯拉专家在今年AI Day上表示,其需要使用14亿帧画面才能训练一个神经网络,对应的是10万个GPU工时!可见这是一个非常庞杂和耗时的过程。

2022122915090902.003.png
▲特斯拉AI智算中心部分参数

特斯拉为了进一步提升效率,在2021年发布了自研的AI加速芯片D1。25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。

按照特斯拉方面的说法,使用Dojo组成的AI计算集群,可提升30%的网络训练速度!

上面实打实的数据说明,特斯拉通过高度定制化的方式建立自己的AI计算中心,确实使其在模型训练的效率方面获得了明显的提升。

某种程度来说,特斯拉通过自研D1芯片,自研Dojo ExaPOD智算设备,实际上构建的是一种其他竞争对手难以企及的算力霸权。

接下来,随着路上特斯拉的车队规模越来越大,采集的数据越来越多,特斯拉的算法迭代速度也会越来越快,对其他车企和自动驾驶公司形成越来越难以逾越的领先优势。

四、自建AI计算中心 选对设备很关键

既然自建AI计算中心如此重要,而数据中心最核心的AI智算设备,更是一点不能含糊。

2022122915090902.004.png
▲浪潮集团总部

目前国内AI智算设备销量第一的浪潮,已经开始全面布局智能汽车和自动驾驶领域,希望用自家高质量的AI智算设备为车企和自动驾驶公司的模型训练提供支持。

如何选择AI计算设备?软硬件结合最关键。

正如前文所言,只有高度定制化的AI智算设备才能发挥最佳的训练效果。

浪潮深知这个道理。为了研发出最适合自动驾驶行业的AI智算设备,浪潮专门组建了一支几十人的算法团队,先研究自动驾驶的前沿算法。

比如最近在NuScenes数据集的3D目标检测比赛中,浪潮自动驾驶团队的DABNet4D算法一举拿下了第一名的成绩——NDS综合检测精度0.624,较2021年的第一名提升了16个点,进步明显。

2022122915090902.005.png

▲NuScenes 3D目标检测比赛榜单

据了解,浪潮信息的AI团队早在今年年初就构建了一个基于Transformer架构的多视角特征融合模型CBTR算法,并继续基于多相机时空特征优化,设计构建MASTER(Multi-camerA Spatial and Temporal feature ExtractoR,多相机时空特征提取器)。而最近所登顶的DABNet4D算法正是在MASTER算法的基础上进一步引入了深度估计网络等等,最终实现了更为高效稳定的BEV输出。

2022122915090902.006.png
▲浪潮AI团队DABNet4D算法架构

此外,通过图像数据增强、BEV特征增强和样本贴图增强等多尺度的数据增强技术等,提升模型的检测效果,最终DABNet4D算法在NuScenes数据集中夺得3D目标检测第一名的佳绩。

有了对自动驾驶算法模型的深刻理解,浪潮就能在硬件和软件两个维度优化自家的AI智算设备。
硬件层面,不仅CPU、GPU/AI加速器等核心硬件的选型做过优化,像是CPU与GPU之间、计算设备之间的通信链路设计也进行了专门的设计。

比如浪潮自动驾驶团队训练模型使用的是全球领先的AI服务器5488A5服务器平台。其中GPU之间使用了NV-Switch全互联架构,来满足模型训练的高显存需求,以及模型并行训练的高通信带宽需求。

2022122915090902.007.png
▲浪潮AI团队训练模型所搭载的NF5488A5服务器

软件方面的优化更为重要,配套软件算法要让硬件高效的运转起来。

浪潮的AI智算设备融合AIStation,通过整合计算资源、数据资源以及AI开发环境,实现AI 计算资源统一分配调度、训练数据集中管理与加速、AI模型流程化开发训练,为自动驾驶车企开发团队构建敏捷高效的一体化开发平台。

这里举个例子。

当前大多数的AI模型训练一般需要使用几个到几十个GPU加速卡,而面向自动驾驶融合感知的模型训练,因为其模型复杂度的提升和数据量的规模因素,则需要使用几百上千个GPU加速卡协同训练。
如此大规模的协同计算,无论是在集群硬件,还是在算法软件上,都是需要进行专门的设计优化。如果不进行优化,假设用搭载了1000块GPU的AI计算中心训练一个模型,其中每个GPU的效率发挥甚至可能不到10%,也就是会出现用的资源越多,算的越慢的情况。

2022122915090902.008.png
▲浪潮AIPOD方案

浪潮的专业团队曾经建设了一个超过2000个GPU的超大规模AI计算集群,并在训练“源”大模型系列时,实现了90%的扩展效率。协同软、硬件系统优化能力,大幅提升训练效率,最大化地发挥GPU性能。
这些实打实的技术细节和参数,也正是浪潮助力车企和自动驾驶企业组建AI智算中心的底气所在。
在AI算力、算法方面,浪潮所拥有的整体化技术优势,也让其连续多年在AI服务器市场稳居全球市占第一,并深获互联网头部客户的绝对认可。

结语:智能化助力自主品牌弯道超车
最后我们回到汽车行业本身来看。
汽车四化浪潮是中国汽车产业遇到的千载难逢的时代机遇。电动化打破了传统燃油车的技术壁垒,让自主车型能够与欧美大牌平起平坐。智能化是我国的优势领域,一旦在技术上实现领先,就能带动车型竞争力的大幅领先,最终带动整个中国汽车工业实现弯道超车。

从今年的汽车销量来看,电动化浪潮已经带动比亚迪、广汽、蔚来、理想等车企初步实现弯道超车。
下一步,各大车企和汽车智能化供应商应该进一步加大投资力度,在算法和算力方面实现双线布局,将我国庞大的市场优势转化为数据优势,从而在自动驾驶等智能化系统的研发上实现更大发展,最终助力整个汽车工业实现弯道超车。【来源:车东西】


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK