1

推理性能是英伟达GPU的10倍?Groq的LPU什么来头

 6 months ago
source link: https://www.dingkeji.com/post/bdt/153783.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

推理性能是英伟达GPU的10倍?Groq的LPU什么来头--丁科技网

推理性能是英伟达GPU的10倍?Groq的LPU什么来头
2024-02-22 09:45:29
来源:中国电子报、电子信息产业网 王信豪  

2月20日晚,就在英伟达财报发布前夕,AI芯片初创公司Groq在社交媒体上引发了广泛讨论。Groq宣称其LPU(语言处理器)的推理性能是英伟达GPU的10倍,而成本仅为其十分之一。

英伟达作为人工智能浪潮下的头部企业,近年来不乏“挑战者”发起冲击,那么此次LPU的表现如何?

TSP+SRAM的新路径

2月19日,Groq向用户开放了产品体验入口,其产品并非大模型,而类似于大模型加速接口。经由Groq加速推理的开源大模型带给人最直观的感受便是“快”。

根据记者测试,Groq的推理性能达到了每秒270个Token左右,网友测试每秒最高可达500Token,这个速度在ArtificialAnalysis.ai的测试中表现也十分突出。

Groq与其他云服务厂商AI输出Token数对比(图片来源:ArtificialAnalysis.ai)

LPU在LLM和生成式AI上的表现为何快于GPU?

Groq表示,LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。就LLM而言,LPU的计算能力强于GPU和CPU,这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,与GPU相比,消除外部内存瓶颈使LPU能够在LLM上提供更好的性能。

在架构方面,Groq使用了TSP(张量流处理)来加速人工智能、机器学习和高性能计算中的复杂工作负载。根据Groq公开技术资料表示,TSP是一种功能切片的微架构,芯片上具有诸多计算模式被软件预先定义好的功能片,其与数据流的关系如同工厂的流水线。当数据经过切片时,每个功能单元可以选择性地截取所需数据并获取计算结果,并将结果传递回数据流,原理类似于装配线操作员(功能片)和传送带(数据流)——Groq公司首席执行官Jonathan Ross比喻道。

RISC架构(左)和TSP架构(右)的简要区别(图片来源:Groq)

TSP的源头是谷歌研发的TPU(张量处理器),值得一提的是,Ross就曾是谷歌TPU研发团队成员之一。

在存储性能方面,LPU另辟蹊径,有别于传统算力芯片对于SK海力士等存储厂商所产HBM(高带宽存储)的依赖,转而使用了易失性存储器SRAM,这也省去了将HBM置于芯片时对台积电COWOS封装技术的需求。SRAM通常用于CPU的高速缓存,由于不需要刷新电路来保持数据,因此可提供高带宽和低延迟。

可以说,在张量处理器上的技术积累加上别样的存储器选择,共同造就了这个推理的效率“怪兽”。

实现落地仍有阻碍

尽管在Groq官方口径中,以“快”著称的推理性能确实优于大模型普遍生成内容所使用的GPU,但是从实验室数据到真正流入市场参与竞争,还有许多问题需要解决。

首先,LPU在市场最关心的成本问题上众说纷纭。据Groq首席执行官Jonathan Ross所说,在大模型推理场景中,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。

看似极高的性价比,实际情况还有待推敲。原阿里技术副总裁贾扬清在社交媒体上算了一笔账,因LPU的内存仅有230MB,在忽略推理时内存损耗的情况下想运行LLaMA2-70b这样的大语言模型可能需要572张LPU,总购卡成本高达1144万美元(按单卡标价2万美元计算)。相比之下,8张英伟达H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元。

其次是Groq LPU的适用范围能否跟上AI应用的发展速度还是未知数。随着OpenAI在2月初发布AI视频生成平台Sora,生成式人工智能走向新的阶段。LPU虽然能实现对Token这一单元的快速处理,但是面对Sora的最小计算单元Patch,其处理效果如何还未可知。有观点认为,LPU在架构上有所创新,但是仅针对特定算法、特定数据结构来设计芯片,在未来频繁改变的AI发展节奏中可能会“昙花一现”。

目前Groq能够提供两个开源大模型的推理加速服务(图片来源:Groq)

再回到“挑战英伟达”的话题上,Groq所展现出来的解决方案背后是通用芯片与专用芯片的路径分歧。Groq芯片专注于推理,从测试结果上看能够达到令人满意的“秒回”效果,但是这要依赖对大模型的前置训练环节,换言之,LPU的应用场景搭建,需以至少一个完成且开源的大模型为前提。

英伟达作为GPGPU(通用GPU)的头部生产企业,其A100和H100能够覆盖大模型训练和推理的全部流程,而下一代芯片H200在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。在拥有牢固开发者生态的英伟达眼中,强化推理能力也是巩固自身通用GPU市占率的手段。

英伟达的H200着重提升推理能力(图片来源:英伟达)

目前看来,英伟达GPU的交付周期与全球云服务厂商的算力缺口仍存在一定不匹配,英伟达正在积极解决这一问题,与此同时,Groq的LPU能否分得一口蛋糕,还需等待大规模流片之后再看市场反响。

2023年8月14日,Groq宣布三星电子将为自己生产4nm芯片,首批LPU将于2024年下半年量产。Ross表示,在2年后Groq能够部署100万台LPU。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK