0

英伟达要警惕的对手来了

 6 months ago
source link: https://lieyunpro.com/archives/491958
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
英伟达要警惕的对手来了
阅读时间大约6分钟(2307字)

9小时前 英伟达要警惕的对手来了

来源:壹图网
狂飙的英伟达,遇上拦路虎了?

来源:猎云精选;文/邵延港

市值超1.7万亿美元的AI军火商英伟达, 开始感觉到“危机”,需要警惕各路“对手”们了。

几天前,孙正义被曝计划筹资1000亿美元,创立一家AI芯片企业,旨在挑战英伟达。近日,一家AI芯片创业公司Groq,也透露了要颠覆的英伟达的意愿。

英伟达在AI芯片市场如入无人之境,2024财年,英伟达的销售额已经连续三个季度实现三位数的同比增长。毫无疑问,能够让英伟达近一年多疯狂的资本,来自当前市场中持续高涨AI大模型风口。连续多个季度的亮眼财报,英伟达的市值一路狂飙,近一年的区间涨幅超过2.3倍。

这一切都与数据中心人工智能驱动的支出速度有关,因为英伟达的GPU是运行生成式人工智能应用程序的唯一选择。

但“市场苦英伟达久矣”,凭借超高的算力性能和量产交付能力,英伟达独占全球90%的AI芯片市场份额,遥遥领先竞争对手,很多时候还“一卡难求”。

现在,不光是AMD、英特尔等传统芯片巨头在筹划抢占英伟达的市场,微软、Open AI、谷歌等AI巨头,以及像Groq、Cerebras等这样实力强劲的初创公司也在剑走偏锋,与英伟达一较高下。

现在,又一个能够让英伟达警惕的对手出现了。

近日,一家名为Groq的美国AI芯片企业站在聚光灯下,推出了当前最快的大模型推理芯片LPU。从数据来看,Groq自研LPU推理速度是英伟达GPU的10倍,甚至成本只有其1/10。

很对,Groq就在国内外网络上刷屏,使用者的直观反馈就是快。基于Groq自研芯片可以做到在大模型推理时每秒处理将近500个token,帮助Groq的大模型输出速度比GPT-3.5快18倍。

的横空出世打了英伟达一个出其不意。美东时间2月20日,英伟达股价收报694.52美元/股,跌4.35%,盘中跌幅接近7%。

英伟达现在已经在对手的包围圈中,Groq出其不意地给了当头一棒,那它能成为英伟达的替代吗?

比英伟达速度快10倍,能替代英伟达吗?

Groq能够刷屏的重要原因,就是快。

今年1月份,Groq进行了大模型推理性能的首次测试,Meta AI 的 Llama 2 70B 大模型在 Groq LPU推理引擎上运行,其性能优于所有其他基于云的推理提供商,输出token量提高了 18 倍。

2月份,Groq进行了第二次大模型基准测试,这次是 Artificial Analysis.ai,测试显示,Groq 在几乎所有类别中都优于其他推理引擎提供商。

目前,Groq已经在官网开放免费使用,从社交平台上使用者的反馈来看,确实很快。此前的AI生成内容需要一些时间缓冲,但在Groq开放的云服务体验平台上,几乎感觉不到卡顿。

Groq能做到这一点,依靠的是其自研的特殊芯片,这款芯片是Groq专为大模型而研制,团队将其定义为语言处理单元,即LPU。

据悉,LPU不同于英伟达的GPU,它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为AI计算提供稳定的性能。其核心技术是TSP微架构设计,全称叫做张量流处理器,TSP通过独特的功能切片设计、确定性执行以及软件定义的方法来实现高性能和高效率的张量计算。

Groq的思路是通过TSP设计专用于AI推理的芯片,业界叫ASIC。由于工作原理与主流的GPU不同,LPU无需像GPU那样频繁地从内存中加载数据,它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

根据相关报道,Groq设计的第一款TSP ASIC实现了超过每平方毫米硅片1万亿次操作/秒的计算密度,在900 MHz的标称时钟频率下,这款25×29 mm的14nm芯片运行时表现卓越。在ResNet50图像分类任务上,TSP能够在批次大小为1的情况下达到每秒处理20.4K张图片的速度,相较于现代GPU和其他加速器,性能提升了4倍。

据Groq的测试结果,其LPU运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度。极限情况下,Groq的Llama2 7B甚至能实现每秒750 tokens,为GPT-3.5的18倍。

虽说天下武功唯快不破,但只是快,并不能让Groq将英伟达挑于马下。

AI科学家贾扬清近日在社交平台上发文称,因为Groq小得可怜的内存容量(230MB),在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

Groq背后:谷歌TPU团队离职创业

对于创业者来说,想要与巨头竞争,更好的方式是差异化竞争,尽管在颠覆英伟达的实力上还遭受质疑,但Groq也为“挑战英伟达的算力霸权”提供了思路。

Groq作为一家在加州山景城创立8年的初创公司,很早之前便是芯片市场备受瞩目的存在。

Groq的CEO是被称为“TPU之父”的前谷歌员工乔纳森·罗斯。乔纳森·罗斯参与的谷歌TPU项目,曾开发了谷歌的张量处理器。2016年,谷歌将该芯片用于其数据中心使用的定制机器学习芯片。后来,该芯片帮助谷歌的AlphaGo击败了韩国围棋选手李世石。

从那场“人机大战”起,AI闯入更多普通人的世界,全球包括中国也掀起了一轮AI浪潮。

2016年,乔纳森·罗斯从谷歌离职,在加州创办了Groq。值得注意的是,Google TPU项目的十个原始成员中,有八个人也加入了Groq团队。乔纳森·罗斯等人的目标是在Groq复制他在谷歌的成功经验。

211842htf5db.png
来源:Groq官网截图

这支团队实力强劲却非常低调。2017年4月,才有媒体报道称,Groq拿到了风险投资家查玛斯·帕里哈皮迪亚等人投资的的1030万美元的启动资金,Groq才渐渐出现在公众视野。

这支团队也很任性,敢直接放市场“鸽子”。2017年,Groq宣布将在次年,也就是2018年发布第一代AI芯片产品,当时这款芯片号称运算速度将可以达到400 TOPS,每瓦特能进行8万亿次的运算。而当时谷歌最新一代的TPU算力才达到180TOPS,这意味着Groq性能将超谷歌TPU两倍还多。

由于创始团队都出自谷歌TPU团队,当时谷歌也是在约14个月的时间里发布首个TPU,所以对于Groq的flag并没有质疑。

但2018年,Groq并没有拿出自己的芯片产品。

2019年9月,Groq被曝将参展美国计算机历史博物馆举办的AI硬件峰会,人们正期待Groq成为这场峰会的焦点时,Groq却放了鸽子,没有出席。乔纳森·罗斯当时的解释是:他们本打算在AI硬件峰会上做演示,但他们不得不将资源转移给客户,无法进行演示,因此他们决定退出。

好在在创立的前5年中,Groq顺利开发出了第一款人工智能芯片,并将其投入市场,客户遍及数据中心和自动驾驶领域,推进了商业化进程。

211841zjv7in.png
来源:Groq官网截图

Groq再次吸引目光,是在2021年4月,彼时,Groq宣布筹集到3亿美元融资,由Tiger Global Management和亿万富翁投资者丹·桑德海姆的D1 Capital领投。该轮融资使Groq的估值超过10亿美元,而当时,Groq的团队才只有100多人。

近年来,资本市场一直在证明新的产品路径比英伟达的GPU更适合于AI,Groq也一直被推为挑战英伟达的主力军之一。对于能否超越并替代英伟达,Groq似乎也有信心,因为一名自称Groq工作人员的用户在互动时表示,要在3年内赶超英伟达。

对于英伟达来说,独特的市场地位,让其一直处在被围攻的地位,不知道这次黄仁勋能扛过来吗?


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK