2

全世界最大的超算 Frontier 使用 3072 块 AMD GPU 训完超万亿参数 LLM

 8 months ago
source link: https://www.aixinzhijie.com/article/6843632
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
2024-01-14 06:23

全世界最大的超算 Frontier 使用 3072 块 AMD GPU 训完超万亿参数 LLM

据新智元 1 月 13 日报道,用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。

位于美国橡树岭国家实验室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888个MI250X GPU和9472个Epyc7A53CPU。最近,研究人员只使用了其中8%左右的GPU,就训练了一个GPT-3.5规模的模型。研究人员成功地使用ROCM软件平台在AMD硬件上成功地突破了分布式训练模型的很多难点,建立了使用ROCM平台在AMD硬件上为大模型实现最先进的分布式训练算法和框架。

成功地在非英伟达和非CUDA平台上为高效训练LLM提供了可行的技术框架。

训练完成后,研究人员将在Frontier上训练大模型的经验的总结成了一篇论文,详细描述了期间遇到的挑战以及克服的困难。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK