2

英伟达用AI设计更高效电路,最新Hopper GPU架构已有上万AI设计电路实例

 2 years ago
source link: https://www.mittrchina.com/news/detail/10856
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

麻省理工科技评论-英伟达用AI设计更高效电路,最新Hopper GPU架构已有上万AI设计电路实例

英伟达用AI设计更高效电路,最新Hopper GPU架构已有上万AI设计电路实例
算术电路对 GPU 的能效有重要影响,也使得 AI、高性能计算等进一步加速发展。那么,反过来说,AI 能否学会设计为它提供支持的电路呢?(来源:Pixabay)近日,英伟达在一篇题为《使用深度强化学习
280
90c834d14b934174ba03227740577083

算术电路对 GPU 的能效有重要影响,也使得 AI、高性能计算等进一步加速发展。

那么,反过来说,AI 能否学会设计为它提供支持的电路呢?

208827d0438948f4ba970c22502b750c
(来源:Pixabay)

近日,英伟达在一篇题为《使用深度强化学习优化并行前缀电路》(PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning)的论文中表示,AI 不但能设计算术电路,而且相比最好的电子设计自动化(EDA,Electronic Design Automation)工具,AI 设计的电路面积更小、速度更快。在功能相当的情况下,AI 设计的电路面积小 25%。该论文也于 5 月 14 日提交到 arXiv 上。

值得一提的是,在英伟达今年发布的 Hopper GPU 架构中,有上万个电路设计来源于 AI

1995d54887a2433a96e84c5e054c3922
▲图 | AI 设计的 64b 加法器电路(左)和 EDA 工具设计的电路(右)(来源:英伟达官网)

据了解,优良的电路需要具备较小的面积(以使芯片安装尽可能多的电路)、较低的延迟(以提高芯片的性能)和消耗更少的功率(以使芯片功耗更低)等特性。

在本次研究中,英伟达表示功耗和面积两者有紧密联系,因此其主要聚焦在电路面积和延迟上,它们的属性通常不同。研究人员想要找到能平衡这两方面属性设计的“帕累托最优”,即在每个延迟时电路面积能达到最小。

据了解,英伟达 AI 设计的是一种称为(并行)前缀电路的常用算术电路。前缀电路包括 GPU 中的加法器、增量器和编码器等,在更高一级上可将之定义为前缀图。

f69337989e8948beacea90eea2bc9b30
(来源:英伟达官网)

在英伟达官网上,研究人员表示:“前缀图通过电路发生器被转换为带有导线和逻辑门的电路。这些生成的电路由物理合成工具通过门尺寸、复制和缓冲区插入等方式进一步优化。因此,最终的电路属性不会直接来源于原始前缀图属性。”

而 AI 智能体优化的是前缀图产生的电路,并可以在专门设计的环境中对前缀图进行增删节点操作,且能一直持续正确的前缀总和计算。

研究人员将算术电路设计作为强化学习(RL,Reinforcement Learning)任务(任务名称为 PrefixRL)来训练 AI 优化算术电路,并将电路改进当作奖励。

同时还使用 Q 学习算法训练 AI(使用完全卷积神经网络架构),并用网格表示前缀图。此外,网格还代表 Q 网络的输入和输出。

ee1f306133fa472588fbe15364033b94
▲图 | 4b 前缀图(左)和 Q 学习体系结构(右)(来源:英伟达官网)

研究人员在英伟达官网说道:“输入网格中的每个元素表示节点是否存在,输出网格中的每个元素代表添加或删除节点的 Q 值。”

另外,PrefixRL 任务对计算要求比较高,物理模拟单个 GPU 要搭配 256 个 CPU,64b 案例的训练时间达到 3 万多个 GPU 小时。

为此,英伟达打造了名为 Raptor 的分布式 RL 平台。该平台拥有的一些特性,比如“作业调度、自定义网络和 GPU 感知数据结构”,不仅有助于提高训练速度和可扩展性,还允许在 CPU、GPU 和抢占式实例之间进行组合分发工作。

Raptor 还能够在英伟达集体通信库(NCCL,NVIDIA Collective Communication Library)之间做点对点传输,这使得推理 GPU 能获得学习器 GPU 上的参数。该强化学习平台具有的 GPU 感知数据结构,可以获得来自多人的经验,以并行处理数据将其预取到 GPU 上。

62bd061edee44ce093dcdd9d3a3caf8d
▲图 | Raptor 收集数据并利用 NCCL 发送参数(来源:英伟达官网)

一般来说,物理合成的时间较长,会拖慢 RL 训练的速度。但该 AI 智能体不用电路合成即可实施运行。另外,研究人员为了获得电路设计的“帕累托最优”,还训练了不同权重的多个智能体,并使用相同权重推动物理合成设备,从而对电路面积和延迟进行平衡处理。

262ce624a4264257aa927286efb86234
▲动图 | 电路架构(左)和相应加法器电路属性(右)(来源:英伟达官网)

总的来说,英伟达提出了一种新的基于深度 RL 的优化前缀电路的解决方案。该模型单纯通过探索不受限制的设计空间和来自合成工具的反馈来学习策略。用该方式设计算术电路还是首次。

研究人员将 AI 应用于设计区域延迟优化的 32b 和 64b 前缀加法器的任务,并成功找到一个明显优于之前的跨各种区域延迟权衡的设计前沿。即使用开源合成工具和单元库训练的 AI,可以设计出比工业单元库中的商业工具加法器更低的面积和延迟,从而展示出深度 RL 作为一种有效的前缀电路优化算法的潜力。

最后,该团队还在论文中提到,在未来,他们或将该框架扩展到其他数据路径电路,希望其提出的方案能真正推动用 AI 来解决现实中的电路设计问题。

参考资料:
https://developer.nvidia.com/blog/designing-arithmetic-circuits-with-deep-reinforcement-learning/

https://arxiv.org/abs/2205.07000

9fb1c933ea1946c197e3c70702cacca5
625f7b5266b84cf9933c179573c95183

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK