1

Transformer正在耗尽Transformer

 5 months ago
source link: https://www.36kr.com/p/2710587015018633
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Transformer正在耗尽Transformer

甲子光年·2024-03-29 12:09
新的GPT还没来,AI数据中心先遇到困难了。

模型微调平台OpenPipe创始人Kyle Corbitt近期爆了一个料。

他与微软工程师的聊天中,微软工程师透露了以下信息:

  • GPT-6正在训练中
  • 在不同地区之间的GPU上配置InfiniBand(无限带宽)级别的连接很困难
  • 而在一个州内放置(使用)超过10万个H100,就会使电网瘫痪
interlace,1

有网友做了计算,如果十万个H100同时开启,功耗将达到70MW。正常来说一般大型电厂输出功率能达到2000MW,70MW负载其实并不大,但突然在电网中增加70MW的负载,就很容易让电网系统出问题。

OpenAI CEO 萨姆·奥尔特曼(Sam Altman)上周在访谈中提到:“今年OpenAI将会发布一个令人惊叹的模型,即将发布的模型相当于200个中等大小模型的混合。”

而在前段时间举行的“博世互联世界2024”大会上,埃隆·马斯克(Elon Musk)表示,自己在一年多前就预测到了芯片短缺,接下来短缺的会是降压变压器(step-down transformer),而明年将没有足够的电力来运行所有的芯片。

马斯克还讲了一个并不太好笑的笑话:“人们需要transformer(指:变压器)来运行transformer(指:transformer模型)。”“这些transformer正在耗尽transformer。”

1.数据中心电力困境

数据中心缺电不是一个新问题。

早在2022年8月,爱尔兰国有电力公司EirGrid就暂停了两大科技公司的数据中心建设计划:一个亚马逊网络服务站点和两个微软站点(包括一个应该为爱尔兰风场提供备用电源的站点)。EirGrid发言人称:“没有得到EirGrid的许可,无法连接到爱尔兰的电网。”

同一年,英国政府宣布暂停西伦敦的新数据中心建设,理由是“因为数据中心已经占用了电力容量”。不只英国,美国弗吉尼亚州劳登县作为世界上数据中心最集中的地方,也由于电力限制,宣布推迟新项目。

电力短缺的根源是GPU需求暴涨。与传统数据中心的CPU集群不同,AI算力集群通常需要高密度的电力供应,单机柜的电力需求从传统的几kW增加到几十kW。

阿里巴巴公司原副总裁、Lepton AI创始人贾扬清最近在硅谷“高山夜话”活动中表示,AI带来的增量需求首先是高性能的算力。第二个是高质量的模型,以及上层需要的适合这些高性能、高质量和高稳定性需求的计算的软件层。

对于一个AI数据中心来说,除了IT设备(存储、运算、网络和连接器)之外还需要供电设备(UPS、蓄电池、柴油发电机、配电单元)、温控设备(冷源设备、机房空调、新风系统)等。

业界用PUE(PUE=数据中心总能耗/IT设备能耗)衡量数据中心能源利用率,理想水平为1.6至2.0,但并不是每个数据中心都能做到理想PUE。换言之,数据中心IT设备能耗越大,总用电消耗一般就越大,这使得AI数据中心耗电量急剧膨胀。

根据咨询机构SemiAnalysis预测,全球数据中心关键IT电力需求将从2023年的 49GW激增至2026年的96GW,其中AI数据中心关键IT电力需求增长迅猛,到2026年将达到40GW(40,000MW)

interlace,1

全球数据中心关键IT电力需求(单位:MW),图片来源:SemiAnalysis

数据中心电力需求的增长趋势也很明显,特别是在AI和加密货币领域。国际能源署发布的《2024年电力报告》预测,到2026年,AI数据中心的电力需求将达到90TWh,相当于约10GW的数据中心关键IT电力需求,或者相当于730万个H100。

interlace,1

传统数据中心、加密货币、专用AI数据中心的预计电力需求,图片来源:SemiAnalysis

随着全球对互联网服务和人工智能的需求持续增长,支持其运行的数据中心的用电量可能在短短4年内翻一番。这意味着这些数据中心在2026年的耗电量将与目前日本全国的耗电量相当。

澎拜新闻曾在报道数据中心耗电问题时提到,据不完全统计,2020年全球发电量的5%左右用于计算能力消耗,而这一数字到2030年可能提高到15%到25%左右。而2020年中国数据中心耗电量突破2000亿度,是同时期三峡大坝和葛洲坝电厂发电量总和的2倍。

斯坦福大学教授李飞飞在公开演讲和学术文章中指出,随着AI技术的广泛应用,必须考虑其对电力供应和环境的影响,并寻找创新的解决方案来实现AI的可持续发展,否则AI数据中心发展可能很快会造成电力紧缩。

除了未来的电力困境之外,数据中心建设和运营在当前也面临很多挑战。

例如在爱尔兰,据《爱尔兰独立报》报道,爱尔兰在2028年之前禁止都柏林地区新的数据中心接入电网,根本原因是化石燃料排放过多。政府为了实现碳排放目标,限制新数据中心落地。

而新加坡具备良好的地理条件,丰富的液冷水资源,优秀的基础设施。但“花园城市”新加坡土地资源太少,不足以支撑大量数据中心落地,这对数据中心建设构成了实质性的制约。

国内的情况如何呢?

目前,“东数西算”工程正在稳步推进,8个国家算力枢纽节点建设已全部开工,10个国家数据中心集群同步布局。西部地区新开工建设的数据中心项目数量稳步增长,我国算力集聚效应初步显现。

但《中国工业报》今年1月的报道指出,受技术、成本、机制等多重因素制约,西部部分数据中心利用效率不高,面临算不了、算不起、算不好等问题,“东数西算”目前整体上仍处于“东数西存”阶段。

数据中心的困境,在AI浪潮的裹挟下越来越严重。

2.数据中心热潮

“做不完,根本做不完”!在AI浪潮起来之后,这句话成为了很多芯片代工厂工人和数据中心施工团队的口头禅。

AI数据中心的“发动机”在于GPU。大型科技公司对于数据中心建设的狂热需求也让英伟达的出货量节节攀升。

从2021年到2024年底,英伟达交付的H100及同等功率GPU数量超过500万个。按约3.5万美元的市场价,这相当于500万辆特斯拉Model 3。

根据Omdia Research的数据,2023年第三季度Meta、微软购买了最多的H100,分别为15万张,其次是谷歌、亚马逊、Oracle、腾讯、CoreWeave、百度、阿里巴巴、Lambda Labs、字节跳动与特斯拉。

interlace,1

英伟达H100出货量,图片来源:Omdia Research

大厂们无一不在疯狂建设AI数据中心。

Meta在年初发布消息称,预计到今年年底完成65万个H100的安装。1月25日,美国印第安纳州经济发展公司宣布Meta将在该州建立一个价值8亿美元的AI数据中心,占地70万平方英尺。本月,这座数据中心正式开工,据外媒透露,数据中心将于2026年投入运营,除了100个运营工作岗位外,还将在施工高峰期支持1250多个工作岗位。

同样在这个月,Meta 推出2个24K GPU集群,为训练 Llama3 构建超强资源池。Meta官方表示,这些集群能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI研究进步铺路。

微软拥有当下规模最大的数据中心,他们也积极加入到数据中心扩建比赛中。年初微软计划扩大其在伦敦和卡迪夫的数据中心规模,并向英格兰北部地区扩张。折戟爱尔兰后,转向法国等地寻找新的数据中心座落地。

除了基础设施外,微软还将拨款数百万英镑用于人员培训,并引进超2万台最先进的图形处理器到英国,这是机器学习和开发人工智能所需的关键技术。可以确保英国人具备构建和使用AI所需的技能。

谷歌计划开发超过千MW级的训练集群,其中大部分计算力来自自研的TPU万卡集群。具体来说,谷歌将投资10亿美元在英国赫特福德郡Waltham Cross新建数据中心,占地33英亩。谷歌副总裁兼英国和爱尔兰董事总经理Debbie Weinstein表示:“这项投资旨在支持人工智能创新。一旦完成,将为英国各地的企业带来关键的计算能力,并帮助确保为谷歌云客户和英国及海外的谷歌用户提供可靠的数字服务。”

据Semianalyst报道,亚马逊AWS以6.5亿美元购买了美国一个1000MW核动力数据中心园区。

interlace,1

图源:datacenterdynamics.com

国内AI数据中心有另一个名字,叫“智算中心”。

甲子光年智库在《中国AIGC产业算力发展报告》中指出,智能算力持续增长,未来需求增加,进一步加快了智算中心建设及相关设备增长。

interlace,1
interlace,1

2月19日,国务院国资委召开“AI赋能 产业焕新”中央企业人工智能专题推进会。会议强调,中央企业要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展智能产业。要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,进一步深化开放合作,更好发挥跨央企协同创新平台作用。

国内智能算力中心建设的速度,正在加快。

相关数据显示,全球范围内目前有8000多个数据中心,主要分布在美国、亚洲和欧洲。美国北弗吉尼亚州是全球最大的数据中心集散地,此外大型数据中心集散地还有英国的伦敦、爱尔兰的都柏林,中国的北京、贵州、内蒙古以及位于东南亚的新加坡。这也与英伟达的地区出货数据相吻合。

3.绿色数据中心是答案吗?

Semianalyst统计了全球电价情况,其中美国电价全球最低,平均为0.083美元/度。中国的工业电价为0.092美元/度,在全球范围也处于低位。

中国的大量电力来自煤炭发电,而美国得益于2000年代初的页岩气革命,如今全美天然气发电量占总发电量的40%,煤炭发电量占比从2012年的37%减少到2022年的20%。

interlace,1

图片来源:share.america.gov

燃煤电厂的碳强度远高于天然气,每千克产出的电量效益远不及天然气。这意味着在建设数据中心时,美国将拥有更多清洁能源,更少受到全球碳排放协议的限制。

中国本身是建设新型发电能力最好的国家之一,但由于种种原因,现阶段中国无法完全转向天然气,而必须依靠煤炭和核电作为主要发电手段。

根据中国政府网报道,近年来中国通过优化绿色供电架构、提高绿电使用比例、绿色智能运营等方式实现节能降耗。目前中国已经创建了三批共计153家国家绿色数据中心,分布在内蒙,宁夏等地。例如万国数据公司的十一号数据中心通过采用单路高压直流供电和采购使用绿电,已经开始实现低碳转型。

工信部印发的《新型数据中心发展三年行动计划(2021-2023年)》提出,到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下,以加快绿色数据中心的普及。

实际效果如何呢?

3月29日,一场与绿色数据中心有关的活动在京举行。

国家数据局党组书记、局长刘烈宏在活动上表示,在“东数西算”与城市算力中心协同推进的过程中,需要进一步明确国家枢纽节点的算力“蓄水池”定位,面向风光水电等清洁能源丰富、区位优势突出、产业基础较好的非国家枢纽节点地区,有序推进建设本区域高效低碳、集约循环的绿色数据中心。

刘烈宏公布了一项最新数据,位于青海的数据中心平均能效指标PUE值保持在1.2以下,处于全国领先水平。

如何不让“transformer耗尽transformer”?绿色数据中心给出了答案。

*参考资料

《AI Datacenter Energy Dilemma - Race for AI Datacenter Space》,Semianalysis

《智算中心元年:如何理解“AI工厂”》,产业家

《AI数据中心,正值风口》,半导体产业纵横

《国家数据局:五方面推进全国一体化算力网建设》,人民网

本文来自微信公众号“甲子光年”(ID:jazzyear),作者:艾伦‍‍,编辑:王博 赵健‍,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK