2

头部芯片公司大模型竞争“全栈化”,拼完算力拼网络

 1 year ago
source link: https://www.36kr.com/p/2378575367957511
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

头部芯片公司大模型竞争“全栈化”,拼完算力拼网络

36氪的朋友们·2023-08-07 23:04
英伟达拔得AI生态头筹之时,英特尔、AMD等厂商也不愿落于人后,在应用场景中除了数据中心也瞄准边缘用途,芯片算力之外还看重网络能力。

头部芯片厂商在大模型领域竞争正进入软硬件、算力、网络的“全栈式”比拼态势——英伟达拔得AI生态头筹之下,英特尔、AMD等厂商不愿落于人后,在应用场景中除了数据中心也瞄准边缘用途,芯片算力之外还看重网络能力。

参数是通用AI大模型最重要的指标之一。2022年4月公布的PaLM大模型训练参数高达5400亿,而2021年发布的LaMDA参数为1370亿,ChatGPT背后的GPT-3.5模型参数为1750亿。

近日,英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti对界面新闻表示,在云端训练大模型,单个服务器已无法承载,对网络需求的高要求前所未有,“我们训练一个大模型就需要5-20万台服务器,需要通过网络来把这些服务器连接起来然后进行训练,这个量是非常大的。”

AI计算大致分为两个层面,首先是对模型进行训练(training),整个过程可能耗时数天或数周;之后是训练出的模型做出推理(inference)。

在训练大模型的过程中,网络的重要性已成业界共识。根据中国移动通信研究院发布的《面向AI大模型的智算中心网络演进白皮书》测算,以1750亿参数规模的GPT-3模型训练为例,从理论估算模型分析,当动态时延从10us提升至1000us时,GPU有效计算时间占比将降低接近10%;当网络丢包率为千分之一时,GPU有效计算时间占比将下降13%;当网络丢包率达到1%时,GPU有效计算时间占比将低于5%。“如何降低计算通信时延、提升网络吞吐是AI大模型智算中心能够充分释放算力的核心问题。”白皮书指出。

对此,英特尔中国区网络与边缘事业部首席技术官张宇解释称,在训练大模型时,模型参数存储于加速器(如GPU显卡)的片外缓存中,随着训练进程对模型参数进行不断更新迭代。同时,不同加速器之间需要进行频繁且大量的数据交换,且只有在数据交换完成之后,才能够去算下一步的训练结果。

“但如果数据交换更新没有结束,训练也不会计算。”张宇说,“所以从中我们可以看到算力和网络能力,对大模型整体性能是两个关键要素。”

从推理端来看,张宇提及,AI模型的部署大部分在边缘场景,算力、功耗、成本往往都有限,不像数据中心可以无限增加设备。因此,如何在一个资源受限的情况下去部署大模型,是基础设施厂商需要考虑的重要问题,网络端的考虑点同样不少。

“如网络模型压缩问题,如果你把大模型原封不动的放在边缘的话对算力要求太高,很多设备是无法承受的。”张宇表示,对于大模型在推理端的应用,需要根据行业特定要求进行优化,使得简化后的模型既满足特定行业对准确度、功能的要求,所需的算力又能够被边缘设备所承载。

对于大模型在边缘的应用上,英特尔除了提供CPU、独立显卡等芯片,满足人工智能模型训练、推理对算力的要求外,还有针对网络的IPU(Infrastructure Processing Unit)产品。张宇称,IPU给用户提供一个可靠的数据传输环境,可满足大模型训练对网络可靠性、丢包率的严格要求,以及对网络速度的要求。

“在大模型这一块,和一些友商相比,英特尔的产品实际上涵盖了计算、通讯等各个领域,给用户提供了一个相对来说比较全面的方案。”张宇称。

在更考验计算力的AI训练领域,英伟达的优势在于牢牢占据大模型训练的主流市场。此外,英伟达持续推进GPU(图形处理器)、CPU和DPU(数据处理器)的“三芯”策略。其中DPU用于处理海量数据,可以做一些数据的处理和预处理,由DPU将任务分发给CPU、GPU和FPGA等进行计算,定位与英特尔的IPU一致。

伴随AI市场的驱动,英特尔的大客户也在加入竞争。2016年,谷歌专门为深度学习打造了TPU(张量处理器),部署在谷歌云平台中,以服务的形式售卖。亚马逊云计算部门也有自研Arm芯片架构服务器CPU,结合用于训练和推理的AI芯片、自研网络芯片等,构成了云计算环境下的芯片布局,可用于大模型计算。

张宇强调,除了硬件端,软件也很重要,如英特尔的OpenVINO、OneAPI等软件和组件,可以供开发者方便使用,“用户使用CPU,是因为现有软件能够充分支持,即便这达不到最佳性能。”他称在大模型领域,凭借前期投资和生态搭建,英伟达基于GPU的CUDA软件生态,已经成为开发者用于大模型乃至AI开发的首要选择。

本文来自界面新闻,作者:彭新,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK