2

英伟达发布最新Hopper架构、800亿晶体管的GPU H100和世界最快AI超级计算机等一系列AI...

 2 years ago
source link: https://www.mittrchina.com/news/detail/10357
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
麻省理工科技评论-英伟达发布最新Hopper架构、800亿晶体管的GPU H100和世界最快AI超级计算机等一系列AI基础设施
英伟达发布最新Hopper架构、800亿晶体管的GPU H100和世界最快AI超级计算机等一系列AI基础设施
当地时间 3 月 22 日,英伟达在其年度 GTC 会议上宣布了最新 Hopper GPU 架构和面向数据中心的 GPU H100、Grace CPU Superchip,以及AI超级计算机 Eos
280


当地时间 3 月 22 日,英伟达在其年度 GTC 会议上宣布了最新 Hopper GPU 架构和面向数据中心的 GPU H100、Grace CPU Superchip,以及AI超级计算机 Eos 等一系列以AI为重点的产品。

据了解,Hopper 架构是英伟达两年前所推出 Ampere 架构的继任者,名称来源于美国计算机科学先驱格蕾丝·霍珀(Grace Hopper)。

首款 Hopper 架构 GPU H100

(来源:英伟达)

采用 Hopper 架构的首款 GPU 为 H100,其旨在加速数据科学中常用的算法类型,采用台积电 4nm 工艺,包含 800 亿个晶体管和一个名为 Transformer Engine 的组件。

值得一提的是,Transformer Engine 结合了数据格式和算法,并可通过所使用的 Transformer 机器学习系统加速硬件性能。

Transformer 系统可以追溯到 2017 年,由于其在总结文档和语言翻译方面的优良能力,已成为自然语言模型(处理文本的 AI 模型)的首选架构,并在现实中得到广泛应用。广为人知的AI模型 GPT-3、AlphaFold 等都是建立在 Transformer 之上。

近几年,AI 模型的参数正呈指数级增长,参数量从几十上百亿发展到了破万亿。“训练这些巨型模型仍然需要几个月的时间,减少这种训练时间的一个关键是数据中心中的 GPU 质量,”英伟达产品管理高级总监帕雷什·卡里亚(Paresh Kharya)说,“新的 Hopper 架构将有助于改善这些困难,而且,H100 上的 Transformer 模型的训练速度比上一代芯片快 6 倍。”

另外,AI训练依赖于浮点数,浮点数具有分数分量(例如,3.14)。大多数 AI 浮点数运算使用的是 16 位半精度(FP16)、32 位单精度(FP32)和 64 位双精度(FP64)。

而 H100 的 Transformer Engine 利用了英伟达的第四代张量核心(Tensor Core)来应用混合的 FP8 和 FP16 格式,可让计算以“启发式”方法自动在两者之间进行选择。

值得注意的是,通常,较低的精度(如FP8)会导致不太精确的 AI 模型,但英伟达表示,H100 可以智能地处理每个型号的缩放,在 FP16、FP32 和 FP64 计算方面,其比上一代 A100 GPU 快 3 倍,在 8 位浮点数计算时快了 6 倍。

除了Transformer Engine,H100 还有一大亮点,其是第一款具有动态编程指令(英伟达称其为 DPX)功能的英伟达 GPU。这里的“指令”指的是包含需要执行的步骤的代码段。

动态编程是一种开发于 20 世纪 50 年代,使用递归(Recursion)和记忆(Memoization)两种关键技术解决问题的方法。该方法可用于为移动机器(例如机器人)找到最佳路线、简化数据库集的操作、对齐独特的 DNA 序列等。其通常运行在 CPU 或现场可编程门阵列(Field-Programmable Gate Arrays,FPGAs)的专门设计的芯片上。

据英伟达称,由于采用 DPX 功能,与基于 Ampere 架构的 GPU 相比,H100 可以将动态编程速度提升 7 倍之多。

(来源:英伟达)

H100 也是“首款支持 PCIe 5.0 和采用 HBM3 的 GPU”,并具有每秒近 5TB 的外部连接和每秒 3TB 的内部存储带宽。

该款 GPU 还有着机密计算功能,可隔离加密安全区中的数据,安全区的内容(包括正在处理的数据)只能由授权的编程代码访问,否则,对其他任何人都不可见。

“通过处理和完善堆积如山的数据,数据中心正在成为 AI 工厂 ,”英伟达创始人兼 CEO 黄仁勋(Jensen Huang)说道,“AI 从根本上改变了软件的功能及其生产方式,身处其中的公司已意识到AI基础设施的重要性。H100 作为全球 AI 基础设施的引擎,企业可用它来加速由 AI 驱动的业务。”

与此同时,英伟达还宣布了一款新的数据中心 CPU,即 Grace CPU Superchip。该芯片旨在与新的基于 Hopper 的 GPU 一起“为大规模 HPC 和 AI 应用程序提供服务”。该公司还称其“具有 144 个 Arm 内核和 1TB/s 的内存带宽。”

第四代 DGX 系统 DGX H100

据了解,GPU H100 将首先应用在英伟达最新发布的 DGX H100中。

图 | DGX H100(来源:英伟达)

DGX H100 拥有 8 个 GPU H100、两个 BlueField-3 DPU、8 个 ConnectX Quantum-2 InfiniBand 网络适配器,能以 FP8 浮点精度提供每秒 400 千兆字节的吞吐量和 32 Petaflops(千万亿次)的 AI 性能。

为加速大型 AI 模型,DGX H100 中的 GPU 在经英伟达 NVLink(第 4 代)连接后,“可提供每秒 900GB 的传输速度”,外接 NVLink Switch 可以在英伟达的 DGX SuperPod 超级计算机中联网多达 32 个 DGX H100 节点。

AI 超级计算机 Eos

英伟达称,出于实验目的,它正在建造一台名为 Eos 的新款 AI 超级计算机,并表示“其部署后将成为世界上最快的超级计算机,将在几个月后上线”。

据了解,Eos 将配备 576 个 DGX H100 系统、4608 个 GPU H100,可提供 18.4 Exaflops(百亿亿次)的 AI 性能,比目前世界上最快的富岳(Fugaku)超级计算机快 4 倍。

英伟达提到,Eos 超级计算机将仅用于公司的内部研究。据了解,过去几年,很多大型科技公司都已经建立或宣布了自己的内部“AI 超级计算机”,包括微软、特斯拉和 Meta 等。但这类计算机由于运行精度较低,还无法与常规超级计算机直接比较。

黄仁勋表示,“Eos 在运行传统的超级计算机任务时,可提供 275 Petaflops 的计算能力,比美国目前最快的科学计算机 Summit 快 1.4 倍。Eos 将成为我们 OEM 和云合作伙伴最先进的 AI 基础设施的蓝图。”

最后,据了解,GPU H100 和 DGX H100 都将于 2022 年第三季度推出。

-End-

参考:
https://venturebeat.com/2022/03/22/nvidia-takes-the-wraps-off-hopper-its-latest-gpu-architecture/
https://www.theverge.com/2022/3/22/22989182/nvidia-ai-hopper-architecture-h100-gpu-eos-supercomputer


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK