5

AMD发起AI芯片挑战,但英伟达依然独孤求败

 1 year ago
source link: https://www.ccvalue.cn/article/1411873.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AMD发起AI芯片挑战,但英伟达依然独孤求败

 •  12 小时前
争做AI淘金时代的卖铲人。

作者:赵健

英伟达CEO黄仁勋正在试图给行业建立一种印象——AI等于英伟达。

在AI大语言模型爆发的今天,要想完成对算力要求极高的AI训练,英伟达针对人工智能的GPU芯片几乎是唯一的选择。

这种供需的极度不平衡让英伟达的GPU一芯难求,就连OpenAI CEO山姆·奥尔特曼也在抱怨芯片短缺已经影响到了ChatGPT的发展。

黄仁勋对此一定喜闻乐见。2023年,在AI需求的推动下,英伟达的市值冲破万亿美元。

不过,有人正在试图打破英伟达在人工智能领域“独孤求败”的状态。

本周三,AMD(超威半导体)在其首次“人工智能与数据中心”产品发布会上,正式发布了年度旗舰芯片Instinct MI300,一款可以对标英伟达Grace Hopper系列的超级芯片。

Instinct MI300有两个版本:MI300X仅有GPU,专为AI模型训练设计,封装了1530亿颗晶体管;MI300A则是集多个CPU、GPU和高宽带内存于一身的APU(AMD在2011年时提出的产品概念),封装了1460亿颗晶体管。

Instinct MI300的发布意味着,英伟达不再是AI公司对算力的唯一选项。AMD确实也成功吸引到了一些AI明星独角兽,比如Hugging Face,AMD将为其CPU、GPU和其他AI硬件优化模型。

Instinct MI300承载着AMD在人工智能领域的野心。AMD CEO苏姿丰近期曾表示:“如果放眼五年,你会在 AMD 的每一款产品中看到人工智能,它将成为最大的增长动力。”

AMD是英伟达的老对手,两者在GPU市场的竞争已经持续了17年,大部分时间都以英伟达的胜利而告终。

而这一次,已经在CPU市场证明过一次的AMD,能否把成功经验复制到GPU市场?

1.AMD想要英伟达的AI皇冠

AMD是全球知名的老牌半导体公司,成立于1969年。在今年Gartner发布的全球半导体公司的排名数据来看,AMD位列第七。

CPU是AMD的发家业务。1981年AMD获得了英特尔X86系列处理器的授权,在PC时代的红利期一举做到了行业第二,而这个行业老二,一做就做了几十年。

在CPU之外,AMD又通过不停地并购,逐步建立起“CPU+GPU+DPU+FPGA”完整的芯片布局。

其中比较重要的并购事件包括:

  • 2006年7月,AMD斥资54亿美元收购当时的GPU行业老二ATI,正式与英伟达展开GPU的竞争;
  • 2022年2月,AMD斥资498亿美元完成对FPGA厂商赛灵思的收购,加强在数据中心业务的布局;
  • 2022年4月,AMD宣布以19亿美元收购DPU芯片厂商Pensando,继续扩大数据中心业务。

AMD的业务构成分为四大板块:数据中心、客户端、游戏与嵌入式业务。

数据中心包含AMD所有的服务器相关的收入;客户端收入主要涉及台式机与个人电脑,曾经是AMD最核心的业务之一,现在收入占比已经不高;游戏业务主要涉及GPU产品线,索尼、微软是稳定的大客户;嵌入式业务则主要来源于原赛灵思的业务。

8174422f2dec5f04494f8666a5b16b6a.jpg

随着人工智能成为一种趋势,数据中心成为各大云巨头高度重视、大力投入的业务,也是英伟达、英特尔与AMD的兵家必争之地。

在此前的2023年Q1财报会上,AMD强调AI为目前公司的第一战略重点,AMD正致力于构建更加多元的AI产品矩阵。

而昨天AMD的产品发布会,就是首次以“人工智能与数据中心”为主题。苏姿丰在发布会上强调,在大型语言模型的推动下,人工智能的市场机会越来越大,到2027年市场潜力可能从目前的300亿美元增加到约1500亿美元。

AMD不想错过这场AI盛宴,但英伟达是横亘在眼前的不得不翻越的大山。

在最新一季的财报中,AMD的数据中心业务营收12.95亿美元,同比上一季度的12.93亿美元,基本没有增长。反观英伟达,今年第一季度的数据中心业务营收创历史新高,同比增长14%至42.8亿美元,是AMD的三倍多。

而根据量化对冲基金Khaveen Investments测算,英伟达数据中心GPU在2022年的市占率高达88%,AMD和英特尔瓜分剩下的部分。

虽然AMD是GPU市场的老玩家,但其过去的GPU系列产品主要应用于图像处理及AI推理领域,而对于并行计算要求更高的AI训练却入场较晚。

而Instinct MI300的发布,意味着AMD试图在AI训练市场,改变英伟达一家独大的局面。

2.进军AI训练

Instinct MI300是第一款面向数据中心的高性能“APU”——一个由AMD独创的概念。

2011年(AMD收购ATI的第五年),AMD在产品构想中以CPU和GPU分别类比人类左右脑,并基于此提出了“CPU+GPU”的异构产品策略,并将其命名为APU。

类比人脑,AMD认为左脑更像CPU,负责对信息的逻辑处理,如串行运算、数字和算术、分析思维、 理解、分类、整理等,而右脑更像GPU,负责并行计算、多模态、创造性思维和想象等。

68568831f19edf5d623a9be7d1b13f62.png

图片来自华泰研究

不过,2011年的AMD正处在“失去的十年”低谷期,无论是在CPU线还是GPU线,都没能拿出足够优秀的产品,APU的发展不尽如人意。

时间来到2020年3月,AMD发布了新的微架构版本CDNA,专门针对数据中心的高性能计算、AI计算而设计。在此之前,AMD的GPU是用同一套架构同时解决游戏与计算场景需求,自然不利于不同场景的优化。

Instinct系列产品,就是专为HPC高性能计算、AI计算而生的。而最新发布的MI300,在规格及性能方面都全面追击英伟达的Grace Hopper。

Instinct MI300采用了台积电5nm工艺,有两个不同的版本:MI300X仅有GPU,专为AI模型训练设计,封装了1530亿颗晶体管;MI300A则是集多个CPU、GPU和高宽带内存于一身的APU,封装了1460亿颗晶体管。

AMD声称Instinct MI300比上一代产品MI250的AI性能高8倍,它可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周,从而节省数百万美元的电费。

AMD在发布会现场演示了MI300x运行400亿参数的Falcon模型,让它写了一首关于旧金山的诗。苏姿丰表示:“模型对容量的要求越来越大,你实际上需要多个GPU来运行最新的大型语言模型。”她指出,随着AMD芯片上内存的增加,开发人员将不需要那么多GPU。

AMD尚未公布MI300定价,但管理层在FY23Q1财报电话会中表示数据中心产品将延续往日的高性价比定价风格,重点先把市场打开。

AMD预计MI300将于今年底前推出,并将搭载于劳伦斯利弗莫尔国家实验室的百亿级超级计算机EI Capitan及其他大型云端客户AI模型中。

大摩分析师Joseph Moore给出乐观指引称,AMD已看到来自客户的“稳定订单”,公司2024年的AI相关营收有望达到4亿美元,最高甚至可能达到12亿美元——这一预期是此前的12倍之多。

不过,尽管AMD几乎是唯一一个有能力对英伟达带来挑战的公司,但这必然是一个非常艰难的过程。

3.英伟达的护城河

在AMD的产品发布会之后,资本市场对此反响平平,AMD的股价下跌了3%以上,反而是英伟达的股价又上涨了3.9%,市值再次超过一万亿美元。

在投资人眼里,AMD的年度芯片MI300似乎仍然难以撼动英伟达的根基。

比如,AMD没有在发布会上透露它的年度芯片获得了哪些大客户的支持。TIRIAS Research首席分析师凯文·克雷韦尔(Kevin Krewell)表示:“我认为,没有(大客户)表示将使用MI300X或MI300A,这可能会让华尔街感到失望。他们希望AMD宣布已经在某些设计方面取代了英伟达。”

目前透露的客户仅有开源大模型独角兽Hugging Face,以及更早之前透露的劳伦斯利弗莫尔国家实验室。但两者与对数据中心芯片有更大需求的云巨头而言不在一个数量级。

187c5e2bfb27e79a1721862a629f29c7.jpg

从芯片本身的性能而言,虽然MI300在一些参数上超过了英伟达,比如晶体管数量要高于A100的540亿个,但是英伟达可能很快就会通过产品的迭代来弥补。

实际上英伟达已经在这么做了。5月29日,在AMD发布会之前两周,英伟达在COMPUTEX 2023展前发布会上,正式发布了全新的GH200 Grace Hopper超级芯片,拥有2000亿个晶体管,比MI300还要高。

更重要的是,英伟达同时宣布了谷歌、微软和Meta将是首批采用这一超级芯片的大客户。

除了产品本身过硬之外,英伟达另一个铜墙铁壁一般的护城河,就是它的CUDA生态。

英伟达于2007年发布CUDA生态系统。通过使用CUDA,开发者可以将英伟达的GPU用于通用的计算处理,而非仅限于图形处理。

CUDA提供了一个直观的编程接口,它允许开发者使用C,C++,Python,以及其他一些语言来编写并行代码。

AI大神吴恩达曾对此评价:“CUDA出现之前,全球能用GPU编程的可能不超过100人,有了CUDA之后使用GPU就变成了一件非常轻松的事情。”

AMD在2016年推出了ROCm,目标是去建立可替代CUDA的生态。2023年,CUDA的开发者已达400万,包括Adobe等大型企业客户。用户越多,粘性越好,起步就晚的ROCm要想构建开发者生态还需要时间。

Moor Insights & Strategy分析师Anshel Sag表示:“尽管AMD在硬件性能方面具有竞争力,但人们仍然不相信AMD的软件解决方案能与英伟达竞争。”

这是属于英伟达的独一无二的护城河。AMD要想打破,极具挑战。

4.AMD的成功,可能难以复制

对于AMD来说,或许最不怕的就是面对挑战。

从2006年到2016年,这是AMD“失去的十年”。这一时期,AMD的两个最大的竞争对手英特尔和英伟达,正在摩尔定律的驱使下进行产品迭代。

英特尔践行着“Tick-Tock钟摆策略”,每两年做一次大的产品迭代更新(一年工艺制程、一年微架构设计);英伟达则在黄仁勋提出的“黄氏定律”——显卡每6个月性能提升一倍——的指引下,每半年将产品升级一次。

AMD没能跟上两个行业老大的产品更新节奏,公司发展一度濒临崩溃,直到2014年苏姿丰作为AMD第五任CEO接手。

苏姿丰刚接手的AMD是一个烂摊子,它的笔记本电脑市场被英特尔占据,新兴的智能手机市场被英伟达、高通和三星瓜分,服务器市场份额也从原来的1/4缩水至仅2%。AMD不得不解雇了大约四分之一的员工,股价徘徊在2美元左右,分析师直称“已无法投资”。

当时英特尔CEO柯再奇如此评价AMD:“这家公司永远不会再回来了,所以不要再介意把重点放在新的竞争对手高通身上了。”

但后来的故事大家都知道了。在苏姿丰的带领下,AMD在CPU市场打了一场漂亮的翻身仗,不仅一步步蚕食了英特尔的市场份额,股价也在2022年2月历史性地反超了英特尔。

AMD之所以能够在CPU市场突围,很重要的原因在于抓住了对手英特尔的战略失误。

在芯片制造这一环节,AMD与英特尔选择了不同的路线。AMD在2009年剥离了旗下的芯片制造业务,合资成立了独立的晶圆代工厂格芯,而自身只专注于芯片设计(Fabless),这让AMD可以选择独立的第三方晶圆代工厂(Foundry)。英特尔则从成立以来一直是集芯片设计与芯片制造于一身(IDM)。

在半导体产业发展的早期,像英特尔这样高度垂直整合的IDM才是更主流的模式。AMD联合创始人Jerry Sanders还说过一句名言:“有晶圆厂才是真男人(Real men have fabs)。”不过讽刺的是,AMD正是因为后来剥离了晶圆厂才有机会完成逆袭。

2014年之后,英特尔的芯片制程遭遇技术困难,10nm芯片(相当于台积电7nm)良率不佳,导致原定于2016年下半年的10nm量产多次推迟,最终到2019年下半年才发布。此前英特尔一直坚持的Tick-Tock策略也因制程技术原因而放弃。

英特尔创始人戈登摩尔提出了摩尔定律,但英特尔现在却遭遇了“摩尔定律的诅咒”。这让AMD抓住了反超的机会。

2018年,AMD先是与格芯合作,推出12nm制程的Zen+架构,首度在制程上超越了14nm的英特尔。随后在2019年,AMD与台积电合作,推出了7nm制程(相当于英特尔10nm)的Zen 2架构,领先英特尔。自此之后,英特尔一直在制程上落后AMD一拍,直到现在仍然没有改善。

今天,类似的“老二挑战老大”的剧本似乎在重新上演,只是战场从CPU换成了GPU。虽然AMD还是“苏妈”带领的AMD,但黄仁勋带领的英伟达,却比当年的英特尔风头更盛。

在硅谷,黄仁勋被称为好斗的男人,爱穿黑色皮衣,时刻做好反击的准备,股价涨到100美元时还把英伟达logo文到胳膊上。

e94baa485b27fc4be690a99ca2aef50c.jpg

2016年黄仁勋还不把AMD放在眼里,他直接评价说英伟达跟AMD是“9跟0”的差距。2019年初AMD抢在英伟达之前首发7nm显卡,黄仁勋表面上似乎也毫不在意,直称“这显卡很一般”。

而今天,AMD再一次用更好的产品向英伟达发起挑战。一边是踌躇满志的AMD,一边是独孤求败的英伟达,一场关于人工智能的GPU大战,现在才刚刚开始。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK