3

Sora将创造多少算力需求?

 6 months ago
source link: https://awtmt.com/articles/3708972
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Sora将创造多少算力需求?

民生计算机 发表于 2024年02月25日 07:29
摘要:训练端一个月预计需要231片A100;推理端则对应1846万个A100需求。

1.1 Sora 训练与推理算力需求初步测算

Sora发布表现亮眼,Transformer+Diffusion架构或成为文生视频大模型新范式。据Sora技术报告,类似于LLM将不同文本数据统一为token,Sora可将不同类型的视频和图像等视觉数据统一为patches,具体而言,Sora首先将视频压缩为低维潜在空间,然后再将其分解为patch;同时,OpenAI将Transformer架构用于视频生成,随着训练计算量的提高,生成视频质量也明显提高。

LTkzMDk5MjEzMQ==

Sora的作者之一Peebles曾发布论文《Scalable Diffusion Models with Transformers》构造成熟的Transformer+Diffusion架构模型用于图像生成;后续中国人民大学等机构发布《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING》进一步实现该架构用于视频生成,我们借助上述论文中的模型参数,对Sora的算力需求进行测算:

1、训练端,由于模型架构较新,本文对《Scalable Diffusion Models with Transformers》论文中DiT-XL/4模型进行逆向工程,使得输入对应参数量后能够得到29.05Gflops,得到训练一张1024x768分辨率图片需要算力324Gflops,根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(Pablo 等著,2022 年)》 披露数据,Youtube上每分钟上传约500小时视频,假设视频都为60帧每秒;假设全采用英伟达A100(FP16 算力312Tflops)且芯片利用率为80%;得到一个月内训练完Youtube全部新增视频约需要231片A100,考虑到文中模型都是经过多次训练得到,算力需求仍有较大程度提高的可能性。

2、推理端,推理端算力约等于交互Patches数量*2*参数量,假设抖音8亿日活,平均每人每天使用时长2h,对应每天16个小时视频播放时长。假设每个Patch尺寸为60*80,一帧1920*1280分辨率的画面有512个Patch,一秒钟30帧,对应一分钟生成的视频有92.16万个Patches,假设Sora模型参数为30亿,则对应1846万个A100需求。

LTExNjIzNDc5MTQ=

1.2合成数据:从数据增强走向训练主体

合成数据指的是基于生成式人工智能技术的计算算法和模拟创建而成的数据。据天翼智库,合成数据依赖少部分的高质量真实数据用于初始创建,将大幅减少算法训练所需的真实数据量,提供了一种更快捷高效的方式来获取所需数据;目前主要通过以下四种技术路径来获取合成数据:基于深度学习生成、基于模拟生成、基于语义规则生成以及基于蒙特卡罗方法生成。

NDY3NjI1NTQ3

合成数据主要分为结构化数据和非结构化数据两类,数据广泛覆盖金融、医疗、零售甚至运营商领域。据天翼智库,合成数据的产业布局可分为结构化数据(表格数据)、非结构化数据(视频、图像等)、测试数据等,合成数据的应用领域十分广泛,早期主要应用于计算机视觉领域,现在正向金融、医疗、零售甚至运营商领域拓展。

LTE5MjkyODY0NjQ=

以多模态为代表的非结构化数据真正快速发展,英伟达、游戏引擎厂商纷纷入局。据《MatrixCity:面向城市规模的神经渲染数据集》,论文已经实现利用虚幻引擎5城市样本项目,作者开发了一个作业流程,以方便地收集空中和街道城市视图,伴随着地面真实的相机姿势和一系列额外的数据模式;论文的方法还提供对光线、天气、人类和汽车人群等环境因素的灵活控制,以支持涵盖城市规模的神经渲染等各种任务的需求。英伟达旗下Omniverse持续推动合成数据业务发展,并支持使用本地部署和 NVIDIA Omniverse™ Cloud解决方案使用合成数据来创建应用。

MTAxODQ5NTA5MA==

合成数据训练效果不断提升,到2030年AI训练中合成数据用量有望超过真实数据。据谷歌《Learning Vision from Models Rivals Learning Vision from Data》论文,尽管没有直接采用任何真实数据训练,SynCLR在 ImageNet数据集上训练的线性传递性能仍可与传统训练方法相媲美。由于合成数据也能填补真实数据集中可能存在的数据缺失、数据不足、数据不均衡等问题,提高机器学习算法的鲁棒性和泛化能力,据Gartner预测,到 2030 年合成数据将完全盖过 AI 模型中的真实数据,成为AI模型训练使用数据的主要来源。

MTM3NzY5MTU0OQ==
MTU3ODkzMjMwMA==

风险提示

1)行业竞争加剧:目前国产软硬件尚未呈现出清晰的格局,芯片、数据库、操作系统等行业仍处于高度竞争状态,若后续行业竞争加剧,可能会影响公司的毛利率水平,进而影响相关公司的盈利能力。

2)公司技术发展不及预期:目前国内AI产业还在起步阶段,相关公司的技术路径、商业化能力仍有不确定性,若后续公司技术发展不及预期,或影响公司业绩增长前景。

本文来源:民生计算机分析师吕伟,执业证书:S0100521110003详见报告《计算机周报:Sora将创造多少算力需求?》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK