4

英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

 3 years ago
source link: http://server.zhiding.cn/server/2021/0823/3135887.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

来源:业界供稿    2021-08-23 08:47:12

关键字: 英特尔

英特尔一直很少透露旗下Xe架构的独立GPU的消息,不过在今年的“架构日”(Architecture Day)活动中,该公司揭开了消费级GPU品牌ARC的神秘面纱。

撰稿人:Anshel Sag

更新时间:美国东部时间2021 年 8 月 20 日下午04:31

主题:云计算

英特尔一直很少透露旗下Xe架构的独立GPU的消息,不过在今年的“架构日”(Architecture Day)活动中,该公司揭开了消费级GPU品牌ARC的神秘面纱,并且透露其首款ARC产品的代码代号为Alchemist,该产品将于2022年1季度上市。Alchemist的定位是Xe HPG(HPG,高性能游戏),另一个备受期待的GPU的代码代号为Ponte Vecchio,该产品瞄准的是HPC(高性能计算)领域。你应该可以预料到,由于针对的目标市场不同,所以这些GPU产品也具有不同的内核配置和热封装。

英特尔在Architecture Day 2021活动中透露了更多关于消费级和高性能计算GPU产品的消息

针对高性能游戏的Xe产品——ARC Alchemist

英特尔将充满活力的PC游戏市场视为一个机会,认为自己可以凭借着ARC产品进入GPU领域。Xe HPG 产品线力求在Xe LP(低功耗)在Tiger Lake 内部实现的性能基础之上,继续提高英特尔的图形性能,将Gen 11的性能翻倍。英特尔的目标是,凭借着独立的Xe HPG产品,通过相应的高功率封装获得更高的性能。

新的Alchemist SoC基于Xe HPG 架构,它的一个关键功能之一就是新的超级采样功能,该功能将会在多个方面被拿来同英伟达的DLSS进行比较。英特尔将其称为Xe SS,由于它使用了神经网络和矩阵乘法硬件——它被称之为XMX核心——它看起来确实和英伟达的方法很相似,这是件好事。但是,有一个版本的 Xe SS 不需要 XMX 硬件,而是利用 DP4a 来最大限度地提高软件与其诸多集成 GPU 的兼容性。

Xe Core - Xe HPG

Xe GPU产品系列的内核有不同的配置,Xe LP、Xe HPG和Xe HPC的内核配置各不相同。每个内核内部都有不同的“引擎”,较小的专用内核,主要是矢量和矩阵内核。英特尔将这些内核称之为“矢量引擎(Vector Engines)”和“矩阵引擎(Matrix Engines)”。在Xe HPG 内核中,你将获得16个矢量引擎和16个矩阵引擎,每个周期分别产生256比特和1025个比特。这种设计看起来和英伟达的矢量内核非常相似,但是前者的矩阵乘法能力却是后者的两倍。四个Xe Core 单元组成了一个渲染切片,它还增加了光线追踪单元、纹理采样器和几何/光栅化前端。整个的Xe HPG Alchemist SoC由 8 个 Xe 内核切片组成,它们之间还包含了一个 L2 缓存。该产品将由台积电使用其N6工艺节点生产,该节点被认为比三星的8纳米(在供英伟达使用)和台积电自己的7纳米(在供AMD使用)节点更先进。英特尔还提供了ARC产品系列的发展路径图,暗示尽管Battlemage (Xe2) 和 Celestial (Xe3) 似乎建立在相同的架构上,但未来的ARC GPU 将比上一代更快。与此同时,Druid被认为是 Xe下一代架构。

适用于超大规模计算等领域的产品——Xe HPC

英特尔设计了 Xe HPC(高性能计算)GPU 来满足超大规模计算需求和高新能计算需求,它通常被用于政府研究或其他大规模计算密集型应用程序,如训练人工智能(AI)。英特尔首款Xe HPC GPU的代码代号为Ponte Vecchio,该公司已经在这款产品上发力一段时间了。我们已经知道这种多芯片 GPU 架构的每个 GPU 的功耗高达 600W,并且需要液体冷却。我们也已经知道 Ponte Vecchio 是一个绝对的 GPU 怪兽,拥有超过 1000 亿个晶体管、47 个活动块和五个不同的工艺节点。但是我们现在知道“计算瓦片(compute tiles)”——Xe HPC内核的另一个名称,将在台积电的N5工艺节点生产,每个“瓦片”将拥有8个Xe Cores和MB 缓存。基片(Base tile)将在英特尔的七个工艺节点生产,将配备144MB的缓存和一个PCIe 5 接口。每个GPU上有8个 Xe Link tile,它们将由台积电的N7工艺节点制造,并且一次最多可以将 8 个 Xe HPC GPU 连接在一起。英特尔声称 Ponte Vecchio 将具有 45 TFLOPS 的峰值 32 位浮点 (FP32) 吞吐量,这是理论上的最大计算能力。虽然这不一定是一个准确的性能衡量标准,但它确实提供了一个粗略的参考框架,表明在驱动程序和其他优化之前,使用没有人工智能或者机器学习的传统GPU计算任务在低精度(例如INT8)下的预期结果。Argonne国家实验室(Argonne National Laboratory)的Aurora超大规模超级计算机将使用英特尔的Ponte Vecchio。该液冷解决方案在每个刀片中使用了两个英特尔新型 Sapphire Rapids CPU 和六个 Ponte Vecchio GPU,这个数量再乘以机架的数量和机架上安装的刀片数量,然后扩展至可以实现超过Exaflop的性能。

Xe Core - HPC

针对高性能计算的Xe Core每个内核中的矢量引擎数量翻了一番,矩阵引擎的数量则翻了两番,这应该能够让你对于英特尔打算让这些内核进行多少运算——特别是人工智能(AI)运算多少有一些概念了。通过这种内核设计,英特尔瞄准了该公司很多客户关注的人工智能和机器学习应用程序,并且可能会与英伟达的A100直面竞争。和Xe HPG很类似的是,Xe HPC也在切片中整合了Xe Cores,除了 Xe HPC,每个切片拥有 16 个核心——而不是4个,这表明了该GPU拥有了强大得多的计算能力。此外,XE HPC 切片还包括光线跟踪单元,这显示出英特尔有意将这些 GPU 用于实际 3D 渲染,而不仅仅是用于计算目的。虽然我们还没有了解到关于光线追踪性能的任何细节,但是知道英特尔的HPC产品也支持光线追踪是一件值得高兴的事,该功能可以被用于高性能云渲染农场。单个 Xe HPC 堆栈最多包含4个切片(64 个 Xe HPC 内核和 64 个光线跟踪单元)、大量 L2 缓存和8个 Xe Link。GPU 上还有 4 个 HBM2e 控制器用于控制HBM2e 内存。而该产品提供的双堆栈配置能够有效地将所有的一切翻倍。

总结……

总体而言,我们已经获得了关于英特尔即将推出的 GPU 的许多信息,并且更好地了解了该公司在图形产品方面的发展方向。英特尔已经明确表示,在追逐游戏和高性能计算未来的途中,该公司在矩阵乘法核心(XMX)和光线追踪两方面都进行了投资。这可以解释为什么英特尔没有在其消费级CPU(Alder Lake)中包含 XMX 内核。该公司在“2021年架构日(Architecture Day 2021)”的活动中,也提供了关于这款产品的一些详细信息。凭借着Alchemist,英特尔有望成为中端消费级GPU市场中的一个有力竞争者。Ponte Vecchio和英伟达在高性能计算(HPC)和人工智能(AI)任务方面的竞争将会出现何种局面还有待观察。不过,从目前看到的初步情况和数据来说,英特尔还是很有希望的。尽管英特尔的Ponte Vecchio从每个GPU的角度上说看起来很贵,但是英伟达的高端产品其实也不便宜。我认为,到明年年初,当Xe HPG 开始批量出货的时候,以及当我们更好地了解Ponte Vecchio 的可用性以及还有谁使用了它的时候,英特尔GPU业务的未来就会更加明朗。在这一点上,英特尔向我们展示了它拥有的架构——很多人认为这个架构颇具吸引力。而业界正在热切地等待着在GPU这个传统由双寡头垄断的市场上出现第三个竞争者。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK