英伟达发布最新Hopper架构、800亿晶体管的GPU H100和世界最快AI超级计算机等一系列AI...

麻省理工科技评论-英伟达发布最新Hopper架构、800亿晶体管的GPU H100和世界最快AI超级计算机等一系列AI基础设施

英伟达发布最新Hopper架构、800亿晶体管的GPU H100和世界最快AI超级计算机等一系列AI基础设施

当地时间 3 月 22 日，英伟达在其年度 GTC 会议上宣布了最新 Hopper GPU 架构和面向数据中心的 GPU H100、Grace CPU Superchip，以及AI超级计算机 Eos

当地时间 3 月 22 日，英伟达在其年度 GTC 会议上宣布了最新 Hopper GPU 架构和面向数据中心的 GPU H100、Grace CPU Superchip，以及AI超级计算机 Eos 等一系列以AI为重点的产品。

据了解，Hopper 架构是英伟达两年前所推出 Ampere 架构的继任者，名称来源于美国计算机科学先驱格蕾丝·霍珀（Grace Hopper）。

首款 Hopper 架构 GPU H100

（来源：英伟达）

采用 Hopper 架构的首款 GPU 为 H100，其旨在加速数据科学中常用的算法类型，采用台积电 4nm 工艺，包含 800 亿个晶体管和一个名为 Transformer Engine 的组件。

值得一提的是，Transformer Engine 结合了数据格式和算法，并可通过所使用的 Transformer 机器学习系统加速硬件性能。

Transformer 系统可以追溯到 2017 年，由于其在总结文档和语言翻译方面的优良能力，已成为自然语言模型（处理文本的 AI 模型）的首选架构，并在现实中得到广泛应用。广为人知的AI模型 GPT-3、AlphaFold 等都是建立在 Transformer 之上。

近几年，AI 模型的参数正呈指数级增长，参数量从几十上百亿发展到了破万亿。“训练这些巨型模型仍然需要几个月的时间，减少这种训练时间的一个关键是数据中心中的 GPU 质量，”英伟达产品管理高级总监帕雷什·卡里亚（Paresh Kharya）说，“新的 Hopper 架构将有助于改善这些困难，而且，H100 上的 Transformer 模型的训练速度比上一代芯片快 6 倍。”

另外，AI训练依赖于浮点数，浮点数具有分数分量（例如，3.14）。大多数 AI 浮点数运算使用的是 16 位半精度（FP16）、32 位单精度（FP32）和 64 位双精度（FP64）。

而 H100 的 Transformer Engine 利用了英伟达的第四代张量核心（Tensor Core）来应用混合的 FP8 和 FP16 格式，可让计算以“启发式”方法自动在两者之间进行选择。

值得注意的是，通常，较低的精度（如FP8）会导致不太精确的 AI 模型，但英伟达表示，H100 可以智能地处理每个型号的缩放，在 FP16、FP32 和 FP64 计算方面，其比上一代 A100 GPU 快 3 倍，在 8 位浮点数计算时快了 6 倍。

除了Transformer Engine，H100 还有一大亮点，其是第一款具有动态编程指令（英伟达称其为 DPX）功能的英伟达 GPU。这里的“指令”指的是包含需要执行的步骤的代码段。

动态编程是一种开发于 20 世纪 50 年代，使用递归（Recursion）和记忆（Memoization）两种关键技术解决问题的方法。该方法可用于为移动机器（例如机器人）找到最佳路线、简化数据库集的操作、对齐独特的 DNA 序列等。其通常运行在 CPU 或现场可编程门阵列（Field-Programmable Gate Arrays，FPGAs）的专门设计的芯片上。

据英伟达称，由于采用 DPX 功能，与基于 Ampere 架构的 GPU 相比，H100 可以将动态编程速度提升 7 倍之多。

（来源：英伟达）

H100 也是“首款支持 PCIe 5.0 和采用 HBM3 的 GPU”，并具有每秒近 5TB 的外部连接和每秒 3TB 的内部存储带宽。

该款 GPU 还有着机密计算功能，可隔离加密安全区中的数据，安全区的内容（包括正在处理的数据）只能由授权的编程代码访问，否则，对其他任何人都不可见。

“通过处理和完善堆积如山的数据，数据中心正在成为 AI 工厂，”英伟达创始人兼 CEO 黄仁勋（Jensen Huang）说道，“AI 从根本上改变了软件的功能及其生产方式，身处其中的公司已意识到AI基础设施的重要性。H100 作为全球 AI 基础设施的引擎，企业可用它来加速由 AI 驱动的业务。”

与此同时，英伟达还宣布了一款新的数据中心 CPU，即 Grace CPU Superchip。该芯片旨在与新的基于 Hopper 的 GPU 一起“为大规模 HPC 和 AI 应用程序提供服务”。该公司还称其“具有 144 个 Arm 内核和 1TB/s 的内存带宽。”

第四代 DGX 系统 DGX H100

据了解，GPU H100 将首先应用在英伟达最新发布的 DGX H100中。

图 | DGX H100（来源：英伟达）

DGX H100 拥有 8 个 GPU H100、两个 BlueField-3 DPU、8 个 ConnectX Quantum-2 InfiniBand 网络适配器，能以 FP8 浮点精度提供每秒 400 千兆字节的吞吐量和 32 Petaflops（千万亿次）的 AI 性能。

为加速大型 AI 模型，DGX H100 中的 GPU 在经英伟达 NVLink（第 4 代）连接后，“可提供每秒 900GB 的传输速度”，外接 NVLink Switch 可以在英伟达的 DGX SuperPod 超级计算机中联网多达 32 个 DGX H100 节点。

AI 超级计算机 Eos

英伟达称，出于实验目的，它正在建造一台名为 Eos 的新款 AI 超级计算机，并表示“其部署后将成为世界上最快的超级计算机，将在几个月后上线”。

据了解，Eos 将配备 576 个 DGX H100 系统、4608 个 GPU H100，可提供 18.4 Exaflops（百亿亿次）的 AI 性能，比目前世界上最快的富岳（Fugaku）超级计算机快 4 倍。

英伟达提到，Eos 超级计算机将仅用于公司的内部研究。据了解，过去几年，很多大型科技公司都已经建立或宣布了自己的内部“AI 超级计算机”，包括微软、特斯拉和 Meta 等。但这类计算机由于运行精度较低，还无法与常规超级计算机直接比较。

黄仁勋表示，“Eos 在运行传统的超级计算机任务时，可提供 275 Petaflops 的计算能力，比美国目前最快的科学计算机 Summit 快 1.4 倍。Eos 将成为我们 OEM 和云合作伙伴最先进的 AI 基础设施的蓝图。”

最后，据了解，GPU H100 和 DGX H100 都将于 2022 年第三季度推出。

-End-

参考：
https://venturebeat.com/2022/03/22/nvidia-takes-the-wraps-off-hopper-its-latest-gpu-architecture/
https://www.theverge.com/2022/3/22/22989182/nvidia-ai-hopper-architecture-h100-gpu-eos-supercomputer

Recommend

Google’s Pixel 6 and 6 Pro vibration changed after the March update - The Verge

首次实现高空间分辨率表观遗传分析，耶鲁大学团队开发Spatial-CUT&Tag技术，或可...

Matter’s delay means you’ll have to wait longer for some new smart home products...

A new John Harris art book will capture more of his dreamlike sci-fi landscapes

Overcoming Blank Page Paralysis

Sony Adds Ukrainian Language Support for PS4 Gaming Consoles - Get Version 9.50

求助： JPA 使用 findAll 时执行了其他 SQL，该怎么排查

荣耀60 SE大内存版开售旗舰级双曲屏＋256GB 2799元

材质用料哪家强，对拆过后，可分高下

The Windows 11 Start Menu Gets New Refinements in the Latest Build

About Joyk