2

大模型训练可"自动驾驶" 蚂蚁集团全面开源相关技术 | 量子位

 7 months ago
source link: https://www.qbitai.com/2024/02/118313.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

大模型训练可“自动驾驶” 蚂蚁集团全面开源相关技术

量子位的朋友们量子位的朋友们 2024-02-02 09:50:20 来源:量子位

能实现训练时“自动驾驶”,这推动了AI研发效率

近日,蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术,可帮助大模型千卡训练有效时间占比超过95%,能实现训练时“自动驾驶”,这推动了AI研发效率。

大模型训练可“自动驾驶” 蚂蚁集团全面开源相关技术

(图:蚂蚁集团的自动化分布式深度学习系统DLRover现已全面开源)

该技术框架名为DLRover,目标在于大规模分布式训练的智能化。目前很多企业的训练作业都是跑在混合部署的集群中,运行环境复杂多变,不管多么“崎岖的地形”,DLRover都可以“轻松行驶”。

2023 年大模型技术的发展,带来了工程实践的爆发,如何管理数据,提高训练和推理效率,最大化利用现有算力,成了关键一环。

完成一个千亿参数级别的大模型,如GPT-3,用一张卡训练一次要耗时32年,那么训练时的算力利用尤为重要。方法之一是把能用的算力用得更好,比如进一步压榨已购买GPU的性能;二是把以前利用不了的算力用起来,比如CPU、内存等,这就需要通过异构计算平台来解决。

最新集成进DLRover的是Flash Checkpoint(FCP)方案。模型训练时,一般要打Checkpoint(检查点),以便中断时能恢复到最近状态,目前常规的做法,存在着耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等缺点。新方案FCP应用在千卡千亿参数模型训练后,Checkpoint 导致的训练浪费时间降低约5倍,其中持久化时间降低约70倍,有效训练时间从90%提升至95%。

同时集成进去的,还有三项新的优化器(Optimizer)技术。优化器作为机器学习的核心组件,用于更新神经网络参数以最小化损失函数。其中,蚂蚁的AGD(Auto-switchable optimizer with Gradient Difference of adjacent steps)优化器,在大模型预训练任务中,相比传统的AdamW技术加速 1.5 倍,AGD已在蚂蚁内部多个场景使用并取得显著效果,相关论文已被 NeurIPS ’23收录。

大模型训练可“自动驾驶” 蚂蚁集团全面开源相关技术

(图:在大模型预训练任务中,AGD相比AdamW可以加速1.5 倍)

作为自动化分布式深度学习系统,DLRover的“自动驾驶”功能模块还包括:Atorch,一种PyTorch分布式训练扩展库,在千亿参数模型千卡级别规模下,训练的算力利用率可达60%,帮助开发者进一步压榨硬件算力。

DLRover以 “ML for System” 的理念来提升分布式训练的智能度,旨在通过一个系统,让开发者完全摆脱资源配置的束缚,专注于模型训练本身。在没有任何资源配置输入的情况下,DLRover 仍然可以为每个训练作业提供最佳资源配置。

据了解,蚂蚁集团在人工智能领域持续进行技术投入,最近,蚂蚁集团在内部成立了AI创新研发部门NextEvo,承担了蚂蚁AI的所有核心技术研发,包含百灵大模型的所有研发工作,涉及AI算法、AI工程、NLP、AIGC等核心技术,并在布局多模态大模型、数字人等领域的技术研发和产品创新。

同时,蚂蚁集团还加速开源节奏,填补了国内相关技术空白,推动人工智能行业快速发展。

DLRover开源地址:https://github.com/intelligent-machine-learning/dlrover

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK