5

赛道Hyper | 英伟达封神:潜在对手已现

 1 year ago
source link: https://awtmt.com/articles/3687259
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

赛道Hyper | 英伟达封神:潜在对手已现

周源 发表于 2023年04月24日 02:18
摘要:ChatGPT算力芯片:螳螂捕蝉,黄雀在后。

ChatGPT的出现,不但让AI有了比较明确的商业化方向,也在快速改变服务器产业格局。

传统基于x86架构的CPU芯片,在服务器领域的统治地位,已岌岌可危。

美国证券半导体分析师在最近发布的一份报告中提到,由于ChatGPT对云计算以及IDC的AI算力需求激增,很可能导致商业模式选择将资源转向AI加速器芯片,比如NVIDIA(英伟达)的GPU(图形处理单元)和Broadcom/Marvel的AI定制IC(用于AI推理)。

因此,传统x86架构的、主要由Intel/AMD提供的服务器CPU,到2025年,可能不再是服务器的主要芯片。

同时,更重要的事情发生了:尽管英伟达的GPU产品如今在支撑ChatGPT的算力需求时,风头无俩,但挑战者(或称分羹者)却已出现。

正所谓:螳螂捕蝉,黄雀在后。这只黄雀,是何方神圣?

英伟达:超越x86架构芯片

Vivek Arya,这位半导体分析师在报告中认为,基于传统x86架构的服务器CPU芯片商,比如Intel或AMD,正在遇到NVIDIA这个AI领域领头羊公司的强力挑战。

GPU是英伟达的主要产品,其营收占总收入的80%+。GPU通常作为插入PC主板的卡出现,也有些SoC芯片设计商,将GPU作为SoC芯片的一个模块,整合在系统级芯片中成为一个整体(比如高通骁龙8Gen 2)。

英伟达的GPU芯片,主要作用是为AMD或英特尔等公司制造的中央处理器(CPU)增加计算能力。

Vivek Arya在报告中估计,2023年至2025年,AI加速器芯片的销售额将超过400亿美元(相比2022年复合年均增长率达37%)。于此对应,x86 CPU复合年均增长率仅3%,销售规模也仅为260亿美元。

在ChatGPT出现前,英伟达GPU主要在计算机图形学领域称王。在PC游戏玩家群体中,英伟达是神一样的存在。

英伟达在GPU领域的主导地位,并非始于今日。1999年,英伟达通过GeForce 256进入图形处理市场。20多年后的2022年,游戏业务带给英伟达超过90亿美元的营收。

2022年12月,OpenAI发布ChatGPT。由于ChatGPT对算力的极度渴求,相当于给算力爆棚的英伟达安装了一组营收动力引擎。算力构成了AI商业繁荣的基础。Vivek Arya说,“使用英伟达的GPU,去增加更多的计算能力非常容易。现在,计算能力相当于硅谷的货币。”

作为支撑ChatGPT背后大型语言模型(LLM)底层动力引擎,英伟达由于在AI方面的敏锐洞察力、早期投资和坚定不移的坚持投入,因而获得了顶级回报。

3月20日-23日,在英伟达举行的年度GTC开发者大会上,AI成为主要与会者讨论的主要焦点。英伟达首席执行官黄仁勋在被问及“提前20年布局AI,到底是运气还是有先见之明”时,黄仁勋回答了这么一句:“我们只是相信总有一天会发生新的事情,其余的一切都需要一些偶然性”。

如今AI芯片组云市场主要分为三个部分:公共云由云服务提供商托管:AWS、微软、谷歌、阿里巴巴、百度和腾讯等;其次是企业数据中心,性质是私有云和混合云,即结合公共云和私有云(VMware、Rackspace、NetApp、HPE和DELL)的产品。

除了公共云、私有云和混合云,ABI Research首席分析师苏连杰认为,还有电信云,即电信公司为其核心网络、IT和边缘计算工作负载部署的云基础设施。

英伟达的GPU在云端训练方面的主导地位无可撼动。但与此同时,从2020年起,ASIC(专用定制芯片)在AI推理领域也出现强劲增长。

苏连杰说,一些云服务提供商(CSP)认为,推理工作量的规模并不小于训练工作量。ASIC是AI加速器芯片中用于推理的部分,另一部分即用于训练的GPU。

事实上,即使是在2022年12月OpenAI发布的ChatGPT 3.5版本中,也确实出现了ChatGPT能根据用户“投喂”问题素材的上下文,做出合乎人类逻辑的精确推理。ChatGPT 4.0版本,推理能力更强。

挑战者谷歌的TPU技术特征

如果看AI定制芯片具备的推理能力,实际上可以发现,英伟达并非缺乏潜在挑战者。

从技术上看,谷歌的TPU(张量处理单元)能同时处理“云上”训练和推理,而非英伟达GPU大部分被用于训练,而ASIC又主要用于推理。因此,谷歌的TPU被视为 CPU 和 GPU 技术的有力挑战者。

苏连杰认为,谷歌在TPU方面的展示的AI技术能力,正为云服务提供商开发属于自己的AI加速器ASIC提供了方向和技术路径。华为、AWS(亚马逊)和百度已经这样做了。

就像英伟达很早就布局AI算力那样,谷歌做TPU同样很早。

2006年,谷歌考虑为神经网络构建专用集成电路(即ASIC),到2013年,谷歌意识到神经网络(NPU)快速增长的计算需求,对ASIC的需求量很可能会翻番。2015年,谷歌将TPU部署到服务器中,并快速迭代。

谷歌TPU如今已迭代到V4.0版。据谷歌4月6日披露,得益于互连技术和领域特定加速器(DSA)方面的关键创新,谷歌云TPU v4在扩展ML(机器学习:Machine Learning)系统性能方面比其前代版本有了近10倍的飞跃。

TPU v4是谷歌于2021年推出的、专门用于执行机器学习(ML)的AI芯片,是谷歌第5代特殊领域加速器(DSA:Domain Specific Accelerator)及第3代用于ML模型的超级计算机平台。

与英伟达的当红辣子鸡A100相比,TPU v4速度快1.2-1.7倍,功耗低1.3-1.9倍。

基于这款芯片,谷歌研发了一台拥有4096颗TPU V4的超级计算机。这也是第一个部署可配置OCS(光电路开关)的超级计算机平台。

OCS可动态配置互联拓扑,以提升扩展性、可用性、利用率、模块化、安全、性能及用电效率。和Infiniband相比,OCS及其底层光纤组件,系统成本不到5%;OCS和底层光学组件更便宜、功耗更低且速度更快,无需光到电到光的转换或耗电的网络分组交换机,从而节省了电力。TPU v4芯片用电率仅200w,二氧化碳排放比一般本地部署的数据中心减少20倍,是执行大型语言模型的理想平台。

TPU v4超级计算机的每颗TPU v4包含SparseCores,这是一种更接近高带宽内存的中间芯片或资料流处理器,许多AI运算都发生在该芯片中,可使深度学习模型嵌入(Embeddings)执行速度提升5-7倍,裸晶(die)面积仅5%。

借由Sparsecores,搭载TPU v4的系统可用于执行搜索、广告、YouTube和Google Play的AI内容推荐。

更令英伟达感到有威胁的是,谷歌宣布,提供AI文本生成图片服务的AI创业公司Midjourney已利用Google Cloud TPUv4来训练其第4版模型。

就像英伟达的GPU在AI大模型做集群训练时,注重生态体系构建一样,谷歌也算法-芯片协同方面做巨额投入。

如今,半导体硬件的技术迭代已接近摩尔定律的极限,未来AI芯片性能要百尺竿头更进一步,就硬件层面的提升空间越来越小。算法和芯片的协同设计将取而代之,成为行业主流;搭建软硬件生态体系和推动行业共建,将在未来成为半导体技术和应用的主要方向。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK