阅读时间大约6分钟（2307字）

9小时前英伟达要警惕的对手来了

来源：壹图网

狂飙的英伟达，遇上拦路虎了？

来源：猎云精选；文/邵延港

市值超1.7万亿美元的AI军火商英伟达，开始感觉到“危机”，需要警惕各路“对手”们了。

几天前，孙正义被曝计划筹资1000亿美元，创立一家AI芯片企业，旨在挑战英伟达。近日，一家AI芯片创业公司Groq，也透露了要颠覆的英伟达的意愿。

英伟达在AI芯片市场如入无人之境，2024财年，英伟达的销售额已经连续三个季度实现三位数的同比增长。毫无疑问，能够让英伟达近一年多疯狂的资本，来自当前市场中持续高涨AI大模型风口。连续多个季度的亮眼财报，英伟达的市值一路狂飙，近一年的区间涨幅超过2.3倍。

这一切都与数据中心人工智能驱动的支出速度有关，因为英伟达的GPU是运行生成式人工智能应用程序的唯一选择。

但“市场苦英伟达久矣”，凭借超高的算力性能和量产交付能力，英伟达独占全球90%的AI芯片市场份额，遥遥领先竞争对手，很多时候还“一卡难求”。

现在，不光是AMD、英特尔等传统芯片巨头在筹划抢占英伟达的市场，微软、Open AI、谷歌等AI巨头，以及像Groq、Cerebras等这样实力强劲的初创公司也在剑走偏锋，与英伟达一较高下。

现在，又一个能够让英伟达警惕的对手出现了。

近日，一家名为Groq的美国AI芯片企业站在聚光灯下，推出了当前最快的大模型推理芯片LPU。从数据来看，Groq自研LPU推理速度是英伟达GPU的10倍，甚至成本只有其1/10。

很对，Groq就在国内外网络上刷屏，使用者的直观反馈就是快。基于Groq自研芯片可以做到在大模型推理时每秒处理将近500个token，帮助Groq的大模型输出速度比GPT-3.5快18倍。

的横空出世打了英伟达一个出其不意。美东时间2月20日，英伟达股价收报694.52美元/股，跌4.35%，盘中跌幅接近7%。

英伟达现在已经在对手的包围圈中，Groq出其不意地给了当头一棒，那它能成为英伟达的替代吗？

比英伟达速度快10倍，能替代英伟达吗？

Groq能够刷屏的重要原因，就是快。

今年1月份，Groq进行了大模型推理性能的首次测试，Meta AI 的 Llama 2 70B 大模型在 Groq LPU推理引擎上运行，其性能优于所有其他基于云的推理提供商，输出token量提高了 18 倍。

2月份，Groq进行了第二次大模型基准测试，这次是 Artificial Analysis.ai，测试显示，Groq 在几乎所有类别中都优于其他推理引擎提供商。

目前，Groq已经在官网开放免费使用，从社交平台上使用者的反馈来看，确实很快。此前的AI生成内容需要一些时间缓冲，但在Groq开放的云服务体验平台上，几乎感觉不到卡顿。

Groq能做到这一点，依靠的是其自研的特殊芯片，这款芯片是Groq专为大模型而研制，团队将其定义为语言处理单元，即LPU。

据悉，LPU不同于英伟达的GPU，它是专为图形渲染而设计、包含数百个核心的并行处理器，能够为AI计算提供稳定的性能。其核心技术是TSP微架构设计，全称叫做张量流处理器，TSP通过独特的功能切片设计、确定性执行以及软件定义的方法来实现高性能和高效率的张量计算。

Groq的思路是通过TSP设计专用于AI推理的芯片，业界叫ASIC。由于工作原理与主流的GPU不同，LPU无需像GPU那样频繁地从内存中加载数据，它使用的是SRAM，其速度比GPU所用的存储器快约20倍。

根据相关报道，Groq设计的第一款TSP ASIC实现了超过每平方毫米硅片1万亿次操作/秒的计算密度，在900 MHz的标称时钟频率下，这款25×29 mm的14nm芯片运行时表现卓越。在ResNet50图像分类任务上，TSP能够在批次大小为1的情况下达到每秒处理20.4K张图片的速度，相较于现代GPU和其他加速器，性能提升了4倍。

据Groq的测试结果，其LPU运行的大模型生成速度接近每秒500 tokens，碾压ChatGPT-3.5大约40 tokens/秒的速度。极限情况下，Groq的Llama2 7B甚至能实现每秒750 tokens，为GPT-3.5的18倍。

虽说天下武功唯快不破，但只是快，并不能让Groq将英伟达挑于马下。

AI科学家贾扬清近日在社交平台上发文称，因为Groq小得可怜的内存容量（230MB），在运行Llama-2 70b模型时，需要305张Groq卡才足够，而用H100则只需要8张卡。从目前的价格来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。

Groq背后：谷歌TPU团队离职创业

对于创业者来说，想要与巨头竞争，更好的方式是差异化竞争，尽管在颠覆英伟达的实力上还遭受质疑，但Groq也为“挑战英伟达的算力霸权”提供了思路。

Groq作为一家在加州山景城创立8年的初创公司，很早之前便是芯片市场备受瞩目的存在。

Groq的CEO是被称为“TPU之父”的前谷歌员工乔纳森·罗斯。乔纳森·罗斯参与的谷歌TPU项目，曾开发了谷歌的张量处理器。2016年，谷歌将该芯片用于其数据中心使用的定制机器学习芯片。后来，该芯片帮助谷歌的AlphaGo击败了韩国围棋选手李世石。

从那场“人机大战”起，AI闯入更多普通人的世界，全球包括中国也掀起了一轮AI浪潮。

2016年，乔纳森·罗斯从谷歌离职，在加州创办了Groq。值得注意的是，Google TPU项目的十个原始成员中，有八个人也加入了Groq团队。乔纳森·罗斯等人的目标是在Groq复制他在谷歌的成功经验。

来源：Groq官网截图

这支团队实力强劲却非常低调。2017年4月，才有媒体报道称，Groq拿到了风险投资家查玛斯·帕里哈皮迪亚等人投资的的1030万美元的启动资金，Groq才渐渐出现在公众视野。

这支团队也很任性，敢直接放市场“鸽子”。2017年，Groq宣布将在次年，也就是2018年发布第一代AI芯片产品，当时这款芯片号称运算速度将可以达到400 TOPS，每瓦特能进行8万亿次的运算。而当时谷歌最新一代的TPU算力才达到180TOPS，这意味着Groq性能将超谷歌TPU两倍还多。

由于创始团队都出自谷歌TPU团队，当时谷歌也是在约14个月的时间里发布首个TPU，所以对于Groq的flag并没有质疑。

但2018年，Groq并没有拿出自己的芯片产品。

2019年9月，Groq被曝将参展美国计算机历史博物馆举办的AI硬件峰会，人们正期待Groq成为这场峰会的焦点时，Groq却放了鸽子，没有出席。乔纳森·罗斯当时的解释是：他们本打算在AI硬件峰会上做演示，但他们不得不将资源转移给客户，无法进行演示，因此他们决定退出。

好在在创立的前5年中，Groq顺利开发出了第一款人工智能芯片，并将其投入市场，客户遍及数据中心和自动驾驶领域，推进了商业化进程。

来源：Groq官网截图

Groq再次吸引目光，是在2021年4月，彼时，Groq宣布筹集到3亿美元融资，由Tiger Global Management和亿万富翁投资者丹·桑德海姆的D1 Capital领投。该轮融资使Groq的估值超过10亿美元，而当时，Groq的团队才只有100多人。

近年来，资本市场一直在证明新的产品路径比英伟达的GPU更适合于AI，Groq也一直被推为挑战英伟达的主力军之一。对于能否超越并替代英伟达，Groq似乎也有信心，因为一名自称Groq工作人员的用户在互动时表示，要在3年内赶超英伟达。

对于英伟达来说，独特的市场地位，让其一直处在被围攻的地位，不知道这次黄仁勋能扛过来吗？

英伟达要警惕的对手来了

9小时前英伟达要警惕的对手来了

比英伟达速度快10倍，能替代英伟达吗？

Groq背后：谷歌TPU团队离职创业

Recommend

Inappropriate "InvalidArgument" error when providing both "contex...

Framing Hammer Vs. Claw Hammer: How To Pick The Right Tool For The Job

Rolex劳力士公布2023年劳力士雄才伟略大奖（Rolex Awards for Enterprise）得主。五位...

为训大模型不择手段的AI公司，打破了这个古老的互联网协议

视频|居然之家董事长汪林朋：龙年开工大吉

CHANEL香奈儿美妆将在苏格兰首府爱丁堡Charlotte Square8号开设快闪店。（时间：3月9...

The Ruby on Rails Podcast Episode 508: YJIT with Maxime Chevalier-Boisvert

小米 14 Ultra搭载澎湃 T1 信号增强芯片支持双向卫星通信

Preventing server-side request forgery in Node.js applications

Zee shares jump 10% after report Sony merger is being revived

About Joyk

英伟达要警惕的对手来了

9小时前 英伟达要警惕的对手来了

比英伟达速度快10倍，能替代英伟达吗？

Groq背后：谷歌TPU团队离职创业

Recommend

About Joyk

9小时前英伟达要警惕的对手来了