英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

来源：业界供稿 2021-08-23 08:47:12

英特尔一直很少透露旗下Xe架构的独立GPU的消息，不过在今年的“架构日”（Architecture Day）活动中，该公司揭开了消费级GPU品牌ARC的神秘面纱。

撰稿人：Anshel Sag

更新时间：美国东部时间2021 年 8 月 20 日下午04:31

主题：云计算

英特尔一直很少透露旗下Xe架构的独立GPU的消息，不过在今年的“架构日”（Architecture Day）活动中，该公司揭开了消费级GPU品牌ARC的神秘面纱，并且透露其首款ARC产品的代码代号为Alchemist，该产品将于2022年1季度上市。Alchemist的定位是Xe HPG（HPG，高性能游戏），另一个备受期待的GPU的代码代号为Ponte Vecchio，该产品瞄准的是HPC（高性能计算）领域。你应该可以预料到，由于针对的目标市场不同，所以这些GPU产品也具有不同的内核配置和热封装。

英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

针对高性能游戏的Xe产品——ARC Alchemist

英特尔将充满活力的PC游戏市场视为一个机会，认为自己可以凭借着ARC产品进入GPU领域。Xe HPG 产品线力求在Xe LP（低功耗）在Tiger Lake 内部实现的性能基础之上，继续提高英特尔的图形性能，将Gen 11的性能翻倍。英特尔的目标是，凭借着独立的Xe HPG产品，通过相应的高功率封装获得更高的性能。

新的Alchemist SoC基于Xe HPG 架构，它的一个关键功能之一就是新的超级采样功能，该功能将会在多个方面被拿来同英伟达的DLSS进行比较。英特尔将其称为Xe SS，由于它使用了神经网络和矩阵乘法硬件——它被称之为XMX核心——它看起来确实和英伟达的方法很相似，这是件好事。但是，有一个版本的 Xe SS 不需要 XMX 硬件，而是利用 DP4a 来最大限度地提高软件与其诸多集成 GPU 的兼容性。

Xe Core - Xe HPG

Xe GPU产品系列的内核有不同的配置，Xe LP、Xe HPG和Xe HPC的内核配置各不相同。每个内核内部都有不同的“引擎”，较小的专用内核，主要是矢量和矩阵内核。英特尔将这些内核称之为“矢量引擎（Vector Engines）”和“矩阵引擎（Matrix Engines）”。在Xe HPG 内核中，你将获得16个矢量引擎和16个矩阵引擎，每个周期分别产生256比特和1025个比特。这种设计看起来和英伟达的矢量内核非常相似，但是前者的矩阵乘法能力却是后者的两倍。四个Xe Core 单元组成了一个渲染切片，它还增加了光线追踪单元、纹理采样器和几何/光栅化前端。整个的Xe HPG Alchemist SoC由 8 个 Xe 内核切片组成，它们之间还包含了一个 L2 缓存。该产品将由台积电使用其N6工艺节点生产，该节点被认为比三星的8纳米（在供英伟达使用）和台积电自己的7纳米（在供AMD使用）节点更先进。英特尔还提供了ARC产品系列的发展路径图，暗示尽管Battlemage (Xe2) 和 Celestial (Xe3) 似乎建立在相同的架构上，但未来的ARC GPU 将比上一代更快。与此同时，Druid被认为是 Xe下一代架构。

适用于超大规模计算等领域的产品——Xe HPC

英特尔设计了 Xe HPC（高性能计算）GPU 来满足超大规模计算需求和高新能计算需求，它通常被用于政府研究或其他大规模计算密集型应用程序，如训练人工智能（AI）。英特尔首款Xe HPC GPU的代码代号为Ponte Vecchio，该公司已经在这款产品上发力一段时间了。我们已经知道这种多芯片 GPU 架构的每个 GPU 的功耗高达 600W，并且需要液体冷却。我们也已经知道 Ponte Vecchio 是一个绝对的 GPU 怪兽，拥有超过 1000 亿个晶体管、47 个活动块和五个不同的工艺节点。但是我们现在知道“计算瓦片（compute tiles）”——Xe HPC内核的另一个名称，将在台积电的N5工艺节点生产，每个“瓦片”将拥有8个Xe Cores和MB 缓存。基片（Base tile）将在英特尔的七个工艺节点生产，将配备144MB的缓存和一个PCIe 5 接口。每个GPU上有8个 Xe Link tile，它们将由台积电的N7工艺节点制造，并且一次最多可以将 8 个 Xe HPC GPU 连接在一起。英特尔声称 Ponte Vecchio 将具有 45 TFLOPS 的峰值 32 位浮点 (FP32) 吞吐量，这是理论上的最大计算能力。虽然这不一定是一个准确的性能衡量标准，但它确实提供了一个粗略的参考框架，表明在驱动程序和其他优化之前，使用没有人工智能或者机器学习的传统GPU计算任务在低精度（例如INT8）下的预期结果。Argonne国家实验室（Argonne National Laboratory）的Aurora超大规模超级计算机将使用英特尔的Ponte Vecchio。该液冷解决方案在每个刀片中使用了两个英特尔新型 Sapphire Rapids CPU 和六个 Ponte Vecchio GPU，这个数量再乘以机架的数量和机架上安装的刀片数量，然后扩展至可以实现超过Exaflop的性能。

Xe Core - HPC

针对高性能计算的Xe Core每个内核中的矢量引擎数量翻了一番，矩阵引擎的数量则翻了两番，这应该能够让你对于英特尔打算让这些内核进行多少运算——特别是人工智能（AI）运算多少有一些概念了。通过这种内核设计，英特尔瞄准了该公司很多客户关注的人工智能和机器学习应用程序，并且可能会与英伟达的A100直面竞争。和Xe HPG很类似的是，Xe HPC也在切片中整合了Xe Cores，除了 Xe HPC，每个切片拥有 16 个核心——而不是4个，这表明了该GPU拥有了强大得多的计算能力。此外，XE HPC 切片还包括光线跟踪单元，这显示出英特尔有意将这些 GPU 用于实际 3D 渲染，而不仅仅是用于计算目的。虽然我们还没有了解到关于光线追踪性能的任何细节，但是知道英特尔的HPC产品也支持光线追踪是一件值得高兴的事，该功能可以被用于高性能云渲染农场。单个 Xe HPC 堆栈最多包含4个切片（64 个 Xe HPC 内核和 64 个光线跟踪单元）、大量 L2 缓存和8个 Xe Link。GPU 上还有 4 个 HBM2e 控制器用于控制HBM2e 内存。而该产品提供的双堆栈配置能够有效地将所有的一切翻倍。

总结……

总体而言，我们已经获得了关于英特尔即将推出的 GPU 的许多信息，并且更好地了解了该公司在图形产品方面的发展方向。英特尔已经明确表示，在追逐游戏和高性能计算未来的途中，该公司在矩阵乘法核心（XMX）和光线追踪两方面都进行了投资。这可以解释为什么英特尔没有在其消费级CPU（Alder Lake）中包含 XMX 内核。该公司在“2021年架构日（Architecture Day 2021）”的活动中，也提供了关于这款产品的一些详细信息。凭借着Alchemist，英特尔有望成为中端消费级GPU市场中的一个有力竞争者。Ponte Vecchio和英伟达在高性能计算（HPC）和人工智能（AI）任务方面的竞争将会出现何种局面还有待观察。不过，从目前看到的初步情况和数据来说，英特尔还是很有希望的。尽管英特尔的Ponte Vecchio从每个GPU的角度上说看起来很贵，但是英伟达的高端产品其实也不便宜。我认为，到明年年初，当Xe HPG 开始批量出货的时候，以及当我们更好地了解Ponte Vecchio 的可用性以及还有谁使用了它的时候，英特尔GPU业务的未来就会更加明朗。在这一点上，英特尔向我们展示了它拥有的架构——很多人认为这个架构颇具吸引力。而业界正在热切地等待着在GPU这个传统由双寡头垄断的市场上出现第三个竞争者。

英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

Recommend

shaper — interface styles shaper

西瓜视频中视频伙伴计划：创作人的痛点，远不止谈钱这么简单

The Death of UX/UI Designers

A biography of the pixel, the elementary particle of pictures | Aeon Essays

How to Get Access Token for Azure REST APIs in .NET

背靠大树未必好乘凉，金融壹帐通有本难念的经

Android App Developer working with Smart City technology

上市流产，网易云音乐何去何从？

Material Components: Sheets: Bottom - Material Moment

Kotlin Multiplatform For Android and the Web - Part 1 Introduction and the Serve...

About Joyk