4

木头姐为何抛售、Groq为何轰动?以及想要“弯道超车”英伟达的12家独角兽

 6 months ago
source link: https://awtmt.com/articles/3708735
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

木头姐为何抛售、Groq为何轰动?以及想要“弯道超车”英伟达的12家独角兽

葛佳明 发表于 2024年02月21日 12:45
摘要:Groq的爆火或许暗示AI芯片的主战场将由训练测转向推理测,当更多可替代英伟达GPU的新一代专用推理芯片出现,英伟达的“王位”还保得住吗?

华尔街明星基金经理、方舟投资管理公司的CEO“木头姐”凯茜·伍德(Cathie Wood)最近接受媒体采访时直言,她减持套现约450万美元的英伟达股票,在她看来未来对英伟达GPU芯片的需求并没有预期的那般火热,英伟达将面临更多的竞争。

木头姐称,看看科技巨头们,比如Meta、亚马逊、Alphabet,它们都在开发自己的AI芯片。它们更加专业化,目的性更为明确,而英伟达的芯片则更加通用。

“木头姐”话音刚落,Groq LPU(Language Processing Units语言处理单元)芯片惊艳亮相,号称“性价比高英伟达100倍”(芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为英伟达的十分之一),再加上谷歌自研AI芯片TPU设计者的光环,不少人直呼:英伟达的劲敌出现了。

根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。不同于英伟达GPU需要依赖高速数据传输,Groq称,他们的LPU芯片在系统中没有采用高带宽存储器(HBM),而是选择使用SRAM,速度比GPU所用的存储器快约20倍

Groq公司更是“喊话”英伟达称,在执行推理任务中LPU可以取代GPU,通过其专用化的设计,LPU能够为特定的AI应用提供优化的性能和能效比。

Groq的效益成本问题才是关键

原阿里技术副总裁贾扬清发文分析称,要保证LPU和H100同样吞吐量,就需要更多的卡,而一张LPU卡仅有230MB的内存,且售价超2万美元,在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。

从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。如果运营三年,Groq的硬件采购成本为1144万美元,运营成本为76.2万美元。相比起来,8卡H100的硬件采购成本是30万美元,运营成本是7.2万美元。

86d4ec0b-63d2-49eb-b70f-01a0120fbd6a.png

但华为“天才少年”左鹏飞在知乎上发文反驳了贾扬清的说法,左鹏飞认为大家混淆了售卖价和成本价。应该以Groq自己生产卡的成本价来计算推理成本。虽然 Groq 卡的售卖价是2万美金,但其成本价非常低,预计每卡成本在1200美金左右。

左鹏飞直言,GPU的成本大头则在HBM,但 Groq 直接丢掉了HBM,可以按 SRAM 的成本价估算卡成本。按1200美金/卡的成本计算,500张Groq卡的总成本是60万美金。Groq 公司拿这60万美金只能采购两台英伟达H100。两台英伟达 H100 能跑出 500 tokens/s的性能吗?

c5d1f0d7-e25e-4bdc-9c37-752e23b075a2.png
Groq如何降低成本?

分析指出,毫无疑问,按照当前硬件成本,Groq LPU服务器比英伟达要贵得多,一方面正如左鹏飞所言LPU卡的官方售价虚高,而另一个关键点在于,LPU的架构比较适用于有大量用户并发访问的场景,通过高吞吐大并发的做法将单个用户的单次请求成本显著降下来

这就不得不提到LPU底层独特架构,不同于传统的CPU和GPU架构,Groq从头设计了一个张量流处理器 (TSP) 架构, 以加速人工智能、机器学习和高性能计算中的复杂工作负载。

Transformer模型如今已经成为主流,但训练和使用起来代价非常昂贵。使用大型Transformer模型进行推理时,除了模型的规模不断扩大外,还有两个不可忽略的地方:1.内存消耗大,2.低并行性。

而Groq编译器则在TSP上调度程序执行,提供了一种从软件层到硬件层高度集成和优化的解决方案,特别适合执行复杂的机器学习和深度学习任务。通过这种方式,Groq可以提高计算效率,降低通信开销,同时保证程序执行的确定性和可预测性。

每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。

b6c1343c-f1bd-4ffd-95ec-a583927a1309.png

Groq闪电般的响应速度迅速引爆互联网讨论,“快”的关键则在于,LPU没有采用HBM,而使用了SRAM,同时这种设计也能够显著提高吞吐量。

分析认为,LPU的一个关键特点是它的纯粹确定性,与需要定期刷新的HBM不同,SRAM不需要刷新,能够稳定地存储数据,这意味着Groq芯片可以精确地知道数据在任何给定时刻的位置。

因此,LPU特别适合于执行基于Transformer模型的推理任务,这些计算具有高度的确定性。例如,像GPT-4这样的大语言模型(LLM)通过一系列确定的操作处理文本,与Groq的架构非常匹配。

与此同时,当LPU无需像使用HBM的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。因此,由于AI的推理计算,相较于模型训练需要的数据量远小,Groq的LPU更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。

但有分析指出,Groq闪电般的速度是建立在很有限的单卡吞吐能力,SRAM还有两个特点,第一是面积大,第二是功耗高。在同容量情况下,SRAM的面积是DRAM的5倍-6倍以上,而面积就是成本,所以SRAM按单位面积算,并不便宜。

AI芯片的主战场将由训练转向推理?

在Groq LPU推出之前,大模型的训练和推理都是基于英伟达GPU来设计,采用的CUDA软件技术栈。而Groq LPU的“一夜走红”也让市场开始推断风向变了,AI芯片的主战场将由训练转向推理。

在AI领域,工作任务有两大类:训练和推理。训练阶段对大规模的计算力和内存容量有着极高的需求,但对于访问速度的依赖相对较小。推理阶段则截然不同,AI模型必须以极致的速度运行,目的是为了能够向终端用户提供尽可能多的Token,以此来加快回应用户指令的速度。

有分析认为,未来一年AI推理市场将大幅增长,相较于AI训练,AI推理与用户终端场景需求更加紧密,训练后的大模型需要通过AI推理服务于实际的场景,目前基于英伟达GPU的AI推理方案依然成本高企,在性能、时延等方面影响用户使用体验。

这一次Groq之所以突然爆发,也是因为Groq搭载的Llama2或Mistreal模型的云服务上线,如果Groq LPU推理芯片可以从硬件上解决性能和成本问题,让AI推理服务大规模部署,或许未来会有更多的AI推理类应用落地。

aa62e091-5159-436c-bab7-1da4b9e90d81.png

分析认为,英伟达A100采用的Ampere架构设计为广泛的计算任务提供支持,包括但不限于机器学习。A100的Tensor Core技术和对多种数据类型的支持确实为深度学习提供了强大的加速,但TSP的专门优化使其在机器学习任务上可能提供更优的性能和能效比

由于高能效比,Groq就想到了把TSP变成专用集成电路,也就是ASIC。ASIC的特点在于特定的应用或算法进行了高度优化,以实现最佳性能、最低功耗和最小面积等目标。由于它们专门用于执行一种或一组相关任务,因此在完成这些任务时往往比非定制化的芯片更高效,特别是在推理领域。

数据显示,目前,数据中心定制芯片市场约为300亿美元,当更多可替代英伟达GPU的新一代专用推理芯片出现在数据中心,而基于云端的AI训练芯片的增长或许会逐渐放缓,这或许也是英伟达为什么要开始进军定制芯片市场的重要原因。

推理芯片公司试图从英伟达GPU庞大市场里分一杯羹

媒体汇总了目前处于竞争最前线的12家公司。这些初创企业平均历史只有五年,融资额度最高的已有7.2亿美元,而他们未来或许都有可能成为英伟达“王位”的有力挑战者。

d988c89f-7a8c-4940-9355-8d122857ae53.png
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK