12

AI语言大模型爆发,算力燃料能跟得上吗?

 1 year ago
source link: http://tech.caijing.com.cn/20230324/4926472.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI语言大模型爆发,算力燃料能跟得上吗?

3月是AI语言大模型集中爆发的一个月。

前有OpenAI公布最新版本大型语言模型GPT-4,微软发布GPT-4平台支持的新AI功能Copilot,其将适用于微软热门的Microsoft 365商业软件,如Word、PowerPoint、Excel、Outlook。后有百度等国内科技公司,以及科技圈人士,如美团前高管王慧文、创新工场董事长兼CEO李开复等相继宣布加入该领域。其中,百度抢先发布了新一代大语言模型、生成式AI产品文心一言。

随着ChatGPT的发布及产品应用的不断更新,国内新一轮AI大模型军备竞赛正式打响。

除了在讨论各家公司新推出的AI语言大模型产品力如何,国内相关产品的算力供给是否充沛,以及如何调配算力资源以满足市场需求也成为大家讨论的一个热点问题。

业内专家人士认为,无论是AI语言大模型现在的训练,还是未来产品面向C端使用、承接B端需求,都需要面临短期内算力不足的问题。而造成这一现状的主要原因是现在市场上用于AI大模型的推理训练的英伟达芯片紧缺,且可替代的低版本芯片训练能力差,成本也较高。

算力是训练的燃料

近日,微软在官方博客上发布文章,分享了其为 OpenAI 的 ChatGPT 构建基础设施提供算力的困难与挑战。微软透露,它将上万颗英伟达 A100 芯片连接到一起,重新设计了服务架构,使得 OpenAI 能训练出越来越强大的 AI 模型,同时帮助自家解锁了 Bing、Edge 等工具的 AI 功能。据彭博社报道,微软在该项目上已经花费了数亿美元。

2019 年,微软和 OpenAI 建立合作关系。微软开发了一套新的 Azure 人工智能超级计算技术,并在 Azure 中建立超级计算资源,这些资源的设计和专用性使得OpenAI训练出一套日益强大的 AI 模型。

"由于这些工作跨越了数千个GPU,需要确保有可靠的基础设施,也需要在后端拥有网络,这样才能更快地进行通信并能够连续数周这样运转。"微软 Azure 高性能计算和人工智能产品负责人Nidhi Chappell 称,“这不是买了一大堆 GPU,把它们连在一起就可以开始工作的。为了获得最佳的性能,需要有很多系统级的优化,而这又需要经过许多人的经验总结出来。”

据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3-4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。与仅能处理NLP的GPT-3.5相比,支持多模态的GPT-4可以完成一些传统的视觉语言任务,如图像描述、生成字幕、图像分类等,还具有较强的逻辑分析能力。而GPT-4为完成这一系列更为丰富和复杂的任务,其对算力的需求也达到GPT-3的数倍。

微软在AI训练上的大规模投入换来了突出的成果。截止3月15日,ChatGPT日活突破5837万;微软正逐步将ChatGPT 引入自家的服务线中,其上线的ChatGPT 版本 Bing 短时间内日活跃用户已实现破亿。

以AI语言大模型为基础的产品技术同样在国内上演,ChatGPT 产品的复现同样离不开庞大的算力支持。

据《科创板日报》消息,有接近百度的人士表示,百度目前拥有的最先进英伟达A100芯片群,大部分优先供文心一言项目使用。另外在基础设施层面,公开资料显示,百度阳泉智算中心、百度保定计算集群以及北京、华南的云计算资源也会为文心一言提供算力支持。据悉, AI大模型的推理训练高度依赖英伟达的GPU芯片,缺少芯片会导致算力不足,从而无法处理庞大的模型和数据量,而这又对AI大模型的聪明与否产生影响。

美国市场研究机构TrendForce在3月1日的报告中测算称,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚,未来GPT大模型商业化所需的GPU 芯片数量甚至超过3万枚。

算力支持存在短板

3月22日,在“华彩杯”算力大赛上海赛区启动会上,上海市经信委副主任汤文侃表示,分析GPT-4等大模型成功要素除了海量的高质量语料数据外,更重要的是庞大的智算算力支持。我国有超过20%的算力是智能算力,但和新发布的ChatGPT专用GPU相比,我国在AI芯片上也存在代际差距。

清华大学计算机系教授陈文光表示,AI语言大模型主要分为训练和推理两部分,虽然在产品面向市场时,可以通过各种技术手段降低语言大模型产品的推理成本,但是训练阶段所需的成本很难显著减少。据他介绍,从国内外训练语言大模型的公开数据来看,千亿参数规模的大模型训练需要上千个GPU,万亿参数规模的训练需要上万个GPU,“很多大企业有钱买设备,但是现在的问题是有钱买不到,现在市场上GPU卡很紧缺。”

全国政协委员、中国科学院计算技术研究所研究员张云泉告诉财经网科技,目前语言大模型的训练主要使用英伟达的芯片A100,但受制于贸易限制,中国企业只能使用原有的A100芯片存货,或降低标准选用级别较低的芯片。但是相较于训练模型的基本芯片量投入,各家企业芯片存量明显不足;另外,即使使用低版本的英伟达芯片A800作为替代,也要面临训练速度慢、训练能力较差,以及成本较高的问题。

据《财经十一人》消息,目前国内云厂商拥有的GPU主要是英伟达中低性能产品(如英伟达A10)。拥有超过1万枚GPU的企业不超过5家,其中拥有1万枚英伟达A100芯片的企业最多只有1家。

智能算力分散也是目前面临的一大难题。张云泉表示,因为国内前几年建设的一些算力中心主要为人工智能应用,如深度学习、人脸识别、语音识别等领域提供算力支持,但因为技术迭代速度太快,前者无法顺利承接住以AI语言大模型为代表的算力服务。另外,能够提供AI语言大模型训练服务的各地区超算中心,其在GPU芯片的储存量上也各有不同,如何把这些分散的资源集合在一起,也是需要解决的问题。

据悉,算力主要包括三种类型,分别是基础算力、智能算力和超算算力。基础算力主要用于传统的计算应用,如计算机科学、数值计算和物理模拟等领域,智能算力是指基于GPU、FPGA、ASIC等可以加速AI计算的服务器平台提供的算法,主要用于人工智能应用,如图像识别、语音识别和自然语言处理等领域。

中国人民大学副教授、北京市社科院研究员王鹏在接受媒体采访时表达了相似的看法,要进一步训练AI大模型,我国需要的是高端化、专门针对大模型训练的芯片,这一类智能算力我国目前还不够多。同时,智能算力还分布在全国各地的不同算力中心,难以发挥整体算力优势,统一协调、集中起来为某几个项目、实验室或企业的AI大模型训练服务,还有一定难度。

需多层面整合资源

对于如何解决上述的算力难题,张云泉提出了两条路径,一条路径是思考如何将能够支持AI语言大模型训练的分散的算力资源进行整合,集各家之力,通过组装或分布式协作的形式提供算力服务。

王鹏举例称,可以通过多元化的方式方法,调动各方力量和资源共同来推进,在全国集中建几个针对智能算力的超级运算中心,把更多的优质算力集中起来统一分配,统一研发攻关。

2月13日,北京发布《2022年北京人工智能产业发展白皮书》,提出北京将支持头部企业打造对标ChatGPT大模型,着力构建开源框架和通用大模型的应用生态,加强人工智能算力基础设施布局,加速人工智能基础数据供给。

一周后,全国首个AI公共算力平台——上海市人工智能公共算力服务平台在上海正式揭牌启用。汤文侃表示,为抢占算力发展制高点,接下来上海将推进算力网络建设,推广公共算力服务,依托已成立的人工智能公共算力服务平台,满足科研机构和广大中小企业的人工智能算力需求。

谈及另一条路径,张云泉认为应以对标英伟达为目标,培育、挖掘和发展有潜力的国产芯片公司,动用全国的专家、企业力量,投入资金和技术,为AI语言大模型上的训练和后期的服务提供支持,“只有实现芯片替代,才能彻底解决算力不足的问题。”

燧原科技创始人、董事长兼CEO赵立东表示,针对大模型对于AI芯片的需求,芯片厂商一方面通过拆解大模型的系统级需求,快速迭代下一代芯片,从底层提升性能和支持效率。另一方面,要基于既有的芯片打造系统级方案,通过软件升级解决大模型加速遇到的内存容量小、通信占比高等核心痛点问题。

其认为,“对标国际领先的AI芯片厂商,需要在三个层面开发优化:一是芯片升级,在算力、内存、微架构等层面针对大模型计算做优化;二是软件升级,从传统的单卡以及以单机多卡为主的支持能力拓展至万卡级别大集群支持,有效提供面向大模型支持的分布式计算、混合并行、内存优化等整体软件方案;三是系统方案,以AI芯片为核心,结合计算、存储、网络打造深度优化的系统级方案,面向大模型提供极致的性能和成本优势。”


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK