0

AI是否给了IB一个闪耀的时刻?

 7 months ago
source link: http://enterprise.pconline.com.cn/1707/17074690.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI是否给了IB一个闪耀的时刻?

16850687903093320.jpg zhangxinxin 责任编辑:wangkeyue 发布于:2024-01-29 15:55

Dell'Oro分析师Sameh Boujelbene表示,对人工智能的需求不断增长,将使数据中心交换市场增长50%,他还预测交换领域将出现相当大的创新。

Boujelbene估计,人工智能系统目前在网络交换的总潜在市场中所占的比例“明显不到10%”,其中约90%的部署使用的是英伟达/Mellanox的InfiniBand,而不是以太网。这些部署推动英伟达的网络收入达到每年100亿美元,成为该领域的第二大参与者,领先于Juniper和Arista。

这有一个很好的理由:当涉及到人工智能工作负载时,带宽和延迟是王道,InfiniBand的延迟真的很低,因为它的架构减少了数据包的丢失。相比之下,丢包在以太网中是给定的。

许多应用程序可以处理数据包丢失。但这个问题减缓了人工智能训练的工作量,而且它们已经既昂贵又耗时。这可能就是为什么微软在构建数据中心以支持机器学习工作负载时选择运行InfiniBand的原因。

然而,InfiniBand在原始带宽上限方面往往落后于以太网。英伟达最新的Quantum InfiniBand交换机最高速度为51.2 Tb/s,端口为400 Gb/s。相比之下,以太网交换近两年前达到51.2 Tb/s,可以支持800 Gb/s的端口速度。

在传统的数据中心中,您只期望在聚合层看到这么快的配置。典型的服务器节点无法使400 Gb/s的带宽饱和,更不用说100gb /s了。

与此同时,人工智能集群则是完全不同的东西。AI节点平均每个GPU配备一个400 Gb/s的网卡。这样的节点可以打包4到8个GPU——网卡也是如此——它们都需要处理人工智能工作负载产生的巨大数据流。

Boujelbene将这两种相互竞争的标准比作州际高速公路(以太网),其速度限制更高,但可能发生碰撞,从而阻碍交通,而本地道路(InfiniBand)速度稍慢,但避免拥堵。

虽然以太网在技术上具有带宽优势,但您可能会认为其他瓶颈(如网卡可用的PCIe带宽)会使其成为一个没有意义的问题。

PCIe 5.0是我们在2024年初得到的最好的。在大约64 Gb/s的双向带宽下,一个16x接口可以支持单个400 Gb/s的接口。

包括英伟达在内的一些芯片制造商已经巧妙地将PCIe转换集成到他们的网卡中,以提高性能。加速器不是将GPU和网卡都挂在CPU上,而是通过PCIe交换机与网络接口进行菊花链连接。这就是我们认为英伟达将在PCIe 6.0或7.0上市之前实现800gb /s和1600gb /s网络的方式。

Dell'Oro预计,到2025年,部署在人工智能网络中的绝大多数交换机端口将以800 Gb/s的速度运行,到2027年将翻一番,达到1600 Gb/s。

以太网在人工智能时代不断发展

除了更高的带宽,最近围绕以太网交换的创新有助于解决与InfiniBand相比该标准的许多缺点。

这对英伟达来说并不意外,具有讽刺意味的是,英伟达在推出SpectrumX平台时,一直是所谓无损以太网的最大支持者。

InfiniBand非常适合那些运行少量非常大的工作负载的人,比如GPT3或数字孪生。但在更动态的超大规模和云环境中,以太网通常是首选,英伟达网络部门营销副总裁Gilad Shainer此前告诉The Register。

以太网的优势包括它的开放性,以及它能够为大多数工作负载做得更好的能力,这是云提供商和超大规模企业所欣赏的一个因素,他们要么不想管理双堆栈网络,要么依赖于InfiniBand供应商的小池。

Nvidia的SpectrumX产品组合使用了Nvidia的51.2 Tb/s Spectrum-4以太网交换机和BlueField-3 SuperNICs的组合,通过融合以太网(ROCE)使用400 Gb/s RDMA提供类似InfiniBand的网络性能、可靠性和延迟。

博通在其Tomahawk和Jericho 交换机生产线上也提出了类似的要求,这些交换机要么使用数据处理单元来管理拥塞,要么使用去年宣布的Jericho3-AI平台在机架交换机顶部处理拥塞。

Boujelbene说,博通的观点是,像AWS这样的超大规模企业和云提供商已经做到了这一点。这位分析师指出,英伟达对SpectrumX所做的是将这项工作压缩到一个平台上,使其更容易实现低损耗以太网。

虽然微软偏爱InfiniBand作为其人工智能云基础设施,但AWS正在利用自己的弹性结构适配器2 (EFA2)网络中改进的拥塞管理技术来互连其16.384个GH200计算集群,该集群在2023年底的Re:Invent大会上宣布。

虽然Dell'Oro预计InfiniBand将在可预见的未来保持其在人工智能交换领域的领先地位,但该集团预测以太网将取得可观的收益,到2027年将获得20%的收入份额,这在很大程度上是由云和超大规模数据中心运营商推动的。

原文《Does AI give InfiniBand a moment to shine?Or will Ethernet hold the line?》


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK