推理性能是英伟达GPU的10倍？Groq的LPU什么来头

推理性能是英伟达GPU的10倍？Groq的LPU什么来头--丁科技网

2024-02-22 09:45:29

来源：中国电子报、电子信息产业网王信豪

2月20日晚，就在英伟达财报发布前夕，AI芯片初创公司Groq在社交媒体上引发了广泛讨论。Groq宣称其LPU（语言处理器）的推理性能是英伟达GPU的10倍，而成本仅为其十分之一。

英伟达作为人工智能浪潮下的头部企业，近年来不乏“挑战者”发起冲击，那么此次LPU的表现如何？

TSP+SRAM的新路径

2月19日，Groq向用户开放了产品体验入口，其产品并非大模型，而类似于大模型加速接口。经由Groq加速推理的开源大模型带给人最直观的感受便是“快”。

根据记者测试，Groq的推理性能达到了每秒270个Token左右，网友测试每秒最高可达500Token，这个速度在ArtificialAnalysis.ai的测试中表现也十分突出。

Groq与其他云服务厂商AI输出Token数对比（图片来源：ArtificialAnalysis.ai）

LPU在LLM和生成式AI上的表现为何快于GPU？

Groq表示，LPU旨在克服LLM的两个瓶颈：计算密度和内存带宽。就LLM而言，LPU的计算能力强于GPU和CPU，这减少了每个单词的计算时间，从而可以更快地生成文本序列。此外，与GPU相比，消除外部内存瓶颈使LPU能够在LLM上提供更好的性能。

在架构方面，Groq使用了TSP（张量流处理）来加速人工智能、机器学习和高性能计算中的复杂工作负载。根据Groq公开技术资料表示，TSP是一种功能切片的微架构，芯片上具有诸多计算模式被软件预先定义好的功能片，其与数据流的关系如同工厂的流水线。当数据经过切片时，每个功能单元可以选择性地截取所需数据并获取计算结果，并将结果传递回数据流，原理类似于装配线操作员（功能片）和传送带（数据流）——Groq公司首席执行官Jonathan Ross比喻道。

RISC架构（左）和TSP架构（右）的简要区别（图片来源：Groq）

TSP的源头是谷歌研发的TPU（张量处理器），值得一提的是，Ross就曾是谷歌TPU研发团队成员之一。

在存储性能方面，LPU另辟蹊径，有别于传统算力芯片对于SK海力士等存储厂商所产HBM（高带宽存储）的依赖，转而使用了易失性存储器SRAM，这也省去了将HBM置于芯片时对台积电COWOS封装技术的需求。SRAM通常用于CPU的高速缓存，由于不需要刷新电路来保持数据，因此可提供高带宽和低延迟。

可以说，在张量处理器上的技术积累加上别样的存储器选择，共同造就了这个推理的效率“怪兽”。

实现落地仍有阻碍

尽管在Groq官方口径中，以“快”著称的推理性能确实优于大模型普遍生成内容所使用的GPU，但是从实验室数据到真正流入市场参与竞争，还有许多问题需要解决。

首先，LPU在市场最关心的成本问题上众说纷纭。据Groq首席执行官Jonathan Ross所说，在大模型推理场景中，Groq LPU芯片的速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

看似极高的性价比，实际情况还有待推敲。原阿里技术副总裁贾扬清在社交媒体上算了一笔账，因LPU的内存仅有230MB，在忽略推理时内存损耗的情况下想运行LLaMA2-70b这样的大语言模型可能需要572张LPU，总购卡成本高达1144万美元（按单卡标价2万美元计算）。相比之下，8张英伟达H100的系统在性能上与Groq系统相当，但硬件成本仅为30万美元。

其次是Groq LPU的适用范围能否跟上AI应用的发展速度还是未知数。随着OpenAI在2月初发布AI视频生成平台Sora，生成式人工智能走向新的阶段。LPU虽然能实现对Token这一单元的快速处理，但是面对Sora的最小计算单元Patch，其处理效果如何还未可知。有观点认为，LPU在架构上有所创新，但是仅针对特定算法、特定数据结构来设计芯片，在未来频繁改变的AI发展节奏中可能会“昙花一现”。

目前Groq能够提供两个开源大模型的推理加速服务（图片来源：Groq）

再回到“挑战英伟达”的话题上，Groq所展现出来的解决方案背后是通用芯片与专用芯片的路径分歧。Groq芯片专注于推理，从测试结果上看能够达到令人满意的“秒回”效果，但是这要依赖对大模型的前置训练环节，换言之，LPU的应用场景搭建，需以至少一个完成且开源的大模型为前提。

英伟达作为GPGPU（通用GPU）的头部生产企业，其A100和H100能够覆盖大模型训练和推理的全部流程，而下一代芯片H200在H100的基础上将存储器HBM进行了一次升级，为的也是提升芯片在推理环节中的效率。在拥有牢固开发者生态的英伟达眼中，强化推理能力也是巩固自身通用GPU市占率的手段。

英伟达的H200着重提升推理能力（图片来源：英伟达）

目前看来，英伟达GPU的交付周期与全球云服务厂商的算力缺口仍存在一定不匹配，英伟达正在积极解决这一问题，与此同时，Groq的LPU能否分得一口蛋糕，还需等待大规模流片之后再看市场反响。

2023年8月14日，Groq宣布三星电子将为自己生产4nm芯片，首批LPU将于2024年下半年量产。Ross表示，在2年后Groq能够部署100万台LPU。

Recommend

Women continue to gain ground in tech sector but more needs to be done

How REI built a DevSecOps culture and how Snyk helped

【干货】动画制作行业产业链全景梳理及区域热力地图

Growing Agile: A Coach’s Guide to Training Scrum

大模型“造车”新模式加速涌现

48岁的美妆巨头宣布破产了

MySQL分库分表也拉垮，日扛百万数据查询还得ClickHouse - 更多 - dbaplus社群：围绕Da...

5 Node.js security code snippets every backend developer should know

Rabbit MQ Exchange and Exchange Types: What You Need to Know

100w预算怎么做小红书（收藏）

About Joyk