4

NVIDIA发布云原生超级计算架构:优化算力结构,赋能业务上云,降低数据中心能耗

 1 year ago
source link: https://server.51cto.com/article/740783.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

NVIDIA发布云原生超级计算架构:优化算力结构,赋能业务上云,降低数据中心能耗

原创
作者: 张诚 2022-11-28 11:15:13
NVIDIA发布了云原生超级计算架构,把传统需要利用CPU操作的基础设施工作负载卸载到DPU上来,通过CPU、DPU、GPU以及其它加速器和网络共同协同工作,优化应用算力资源,提高系统整体性能。

当前,数字化转型已经成为所有企业的主旋律。随着AI、云计算、大数据、物联网等新兴技术的应用落地,企业对于算力的需求越来越高,传统数据中心以CPU进行通用计算及基础设施操作、GPU进行加速计算的架构将会使得CPU处理很多诸如网络、安全等基础设施的工作,没法充分运行应用,造成大量的资源浪费,已经不能适应当前企业的需求。为此,NVIDIA发布了云原生超级计算架构,把传统需要利用CPU操作的基础设施工作负载 卸载到DPU上来,通过CPU、DPU、GPU以及其它加速器和网络共同协同工作,优化应用算力资源,提高系统整体性能。 

NVIDIA 网络亚太区高级总监宋庆春在近期接受媒体采访时表示,通过NVIDIA云原生超级计算架构提供的最优性能,不但能够用更低的成本或更少硬件构建更高性能的系统,在云上实现与独立系统运行单一业务一样的性能,而且通过减少硬件的方式降低数据中心的整体能耗,让系统更加绿色环保,也更加安全可靠。

a119e594171f7924dd6260ccd44a998dd50ab1.jpg

NVIDIA 网络亚太区高级总监宋庆春

数据中心新架构:云原生超级计算架构

在AI、云计算、大数据等新技术的推动下,企业对于数据中心算力的要求越来越高。对于数据中心的运营和管理者而言,一方面要不断提高数据中心的算力,以满足用户的根本需求;另一方面,在碳中和、碳达峰战略下,又要不断降低数据中心的能耗,以达成“双碳”目标。在这样的背景之下,企业需要不断优化数据中心的架构,充分利用新技术、新产品来提高数据中心算力,并降低能耗。

 DPU作为一种新型的处理器,能够与CPU、GPU很好的协同工作,充分释放CPU的资源,提高网络性能,已经得到了数据中心用户的广泛关注。

 据宋庆春介绍, BlueField-2 DPU已经在很多市场被广泛应用,BlueField-3 DPU将会很快走向市场。据了解,BlueField-3 DPU在处理RDMA Message时能够达到每秒3亿7千万0个消息,因此在处理小包业务或者微服务业务时,效率会变得更高,算力将进一步提升。

 除了网络加速之外,云原生超级计算还能够利用DOCA加速应用性能。据了解,利用NVIDIA DPU和DOCA可以直接运行各种各样的加速库,例如专门面向集合操作的UCC,专门面向点对点的UCX,此外还有专门面向存储、专门面向性能隔离、专门面向网络编排的加速库。通过标准的File System、Schedulers、或者存储框架,直接为应用提供标准接口,在用户无感知的情况下实现应用加速,满足各种计算方面的业务需求。

 宋庆春表示,通过DPU来加速计算或者卸载通信,能够在一些业务中实现非常不错的性能提升。例如在分子动力学应用上,已经实现20%的性能提升;此外,在数据建模应用场景中实现26%的性能提升,天气预告模型实现24%的性能提升。

 云原生超级计算的核心之一是交换机计算技术。宋庆春告诉记者,交换机计算技术(SHARP)是NVIDIA的独有技术,在交换机上能够进行数据Aggregation和Reduction,突破了网络物理带宽的限制。例如在数据利用通信模型进行数据Aggregation、Reduction或是Broadcast,通过交换机完成,不需要送到特定Host或特定Agent进行操作,消除了网络拥塞,解决了多打一通信对网络造成的Burst压力,而且在Allreduce等通信中可以突破网络的物理带宽上限,在200G的网络上实现了230G甚至更高的带宽。

 为了保证大型业务上云之后的性能,云原生超级计算还提供了性能隔离技术,使得企业能够在云上多任务并行的环境下实现与单机运行一个任务一样的性能。据了解,此项技术已经在微软公有云Azure得到验证,确保在云上运行关键业务时能够得到同样的性能保障。

 宋庆春强调,借助云原生超级计算技术,在云上实现了与超算中心一样的性能,助力业务尽快上云,在云上发挥最好的性能。与此同时,通过对数据中心各种网络资源和计算资源的充分优化,让数据中心在提供最好性能,减少业务之间相互干扰的同时,让每个业务都得到最优的性能,提升效率并减少硬件数量,降低数据中心功耗,构建绿色数据中心。

 2022秋季DPU中国黑客松竞赛:赋能开发者,推进行业创新

在本场媒体沟通会上,除了介绍云原生超能计算架构之外,来自NVIDIA 网络技术专家崔岩还详细介绍了2022秋季DPU中国黑客松竞赛的相关情况。

 据介绍,本届黑客松比赛从8月开始筹备,总共有二十七支团队注册黑客松竞赛。10月19日的黑客松训练营总共吸引了三千五百人参与,上万人次观看。10月22日总计有十三支团队五十一位开发者参加最终比赛,其中既有企业开发者也有高校开发者。经过项目现场演示,国内评委和国际评委对竞赛项目进行了审核评分,最终四支团队脱颖而出,分别获得黑客松对应奖项。 

f44f206904e70bd06a094055b9c2db075e2344.jpg

NVIDIA 网络技术专家崔岩

崔岩告诉记者,本届大赛中还将云原生超级计算架构作为比赛的重点。例如获得一等奖的SDIC团队,其参赛项目为基于BlueField DPU数据中心RDMA虚拟化研究,通过Virtio加速,为以太网和块存储设备解耦,并解决了云管理扩展的问题。该项目的主要目标就是要在NVIDIA BlueField DPU搭建一套设备仿真平台,虚拟化RDMA硬件设备,通过主机侧运行vHost RDMA程序以及NVIDIA BlueField DPU运行Inverse Layer,在InfiniBand网络上实现RDMA功能,利用Virtio半虚拟化解决方案为不同的Hypervisor提供兼容的、通用的Virtio RDMA通信框架和编程接口,从而减少主机性能的一些开销,实现更高效的虚拟化过程,便于云管理、云运维和云迁移。

 “通过黑客松比赛,我们能够为整个业界培养更多地DPU和DOCA开发人才。”崔岩表示,我们希望通过组织赛事,让更多的开发者参与进来,一方面为业内培养更多的优秀人才,另一方面通过赛事探索DPU和DOCA更多的场景及创新应用,更好地服务各行各业,推进千行百业的数字化转型。

责任编辑:张诚 来源: 51CTO

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK