7

re:Invent 2022:亚马逊云科技发布新Nitro卡和Graviton3E处理器

 1 year ago
source link: http://www.dostor.com/p/82117.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

re:Invent 2022:亚马逊云科技发布新Nitro卡和Graviton3E处理器-存储在线

当前位置:存储在线 > 技巧 > 正文

2022年的云科技春晚,亚马逊云科技的re:Invent 2022开始了。

北京时间11月29号上午11点半,我个人最关注的主题内容,继续由亚马逊云科技高级副总裁Peter DeSantis带来。

2022112914484353.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_745

Peter DeSantis的演讲内容分四个“靓仔”,分别是硬件、网络、科学和软件。其中,科学部分指的是AI/ML方面的创新,软件指的是应用软件运行。

首先,看硬件方面的创新

202211291448488.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_560

首先登场的依然是最令人期待的AWS Nitro,回顾历史,Nitro被分成了四个版本来介绍,每一代都会有一些明显的进步和提升,这次发布的就是Nitro V5。

2022112914485676.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_588

与上代相比,Nitro V5采用的晶体管数量翻倍,内存速度提高了50%,PCIe带宽也实现了翻倍。反映到性能方面,PPS网络性能提高60%,延迟降低30%,此外,能耗比也将提升大约30%。

2022112914490313.png

首发采用Nitro V5的就是这款叫C7gn的EC2实例,它采用的处理器是Graviton3,作为一款网络优化型实例,带宽提升到了200Gbps,各项参数相较于上代的C6gn有不小提升。

第二位重磅登场的其实是新一代的Arm处理器Graviton3E。

2022112914491370.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_549

Graviton2相较于Graviton1提升很大,Graviton3相较于Graviton2有25%的性能优势,今年,很多人期待的是Graviton4,但这次只有Graviton3E。

Graviton3E是Graviton3的一个变种,主要优化了在浮点运算和向量运算场景中的表现,这种都是高性能计算领域特别强调的能力。

图中展示的性能提升仅限于在高性能计算领域,比如有分子动力学GROMACS、金融期权定价FINANCIAL OPTIONS PRICING等等场景。

2022112914492115.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_609

为Graviton3E首发护航的就是HPC7g实例,它同时还采用了Nitro V5。对了,这就说明Nitro V5是专门给所有7代主机准备的。

第二,看网络创新方面的创新

网络部分,Peter重点介绍了SRD(Scalable Reliable Datagram)的重要性,并表示,EFA、EBS和ENA都用上了自家的SRD。

EFA是亚马逊云科技的高性能网卡,主要面向HPC和AI集群场景,它依靠Nitro来Offload,绕过内核,以此来提供更高的稳定性,更高的吞吐带宽和更低的延迟。

2022112914492897.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_593

EFA优势很明显,但由于跟TCP有一些不同,所以,真正用的时候,只有少数对延迟特别敏感的应用才有可能来适配它,为了能让人用上EFA,亚马逊云科技也对接了HPC生态。

2022112914493476.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_606

SRD在降低EBS写延迟方面效果显著,如上图所示,它能将极少数(P99.999)会出现的35ms延迟降低五倍,并且能将整体的延迟水平降到一个全新的水平。

41192684b7224947872065a3231ad145~noop.image?_iz=58558&from=article.pc_detail&x-expires=1670337142&x-signature=i8HHuLlJC2a3BJOAW1Z%2BEH%2BTPcs%3D

SRD除了可以帮EBS降低延迟,还能提高吞吐带宽,如上图,采用了SRD的io2,其IOPS和带宽提升了四倍。

Peter还表示,此后新发布的EBS io2都会支持SRD,并且,不会给用户带来额外成本,应用本身无感知,用就行了。

202211291449411.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_544

与EFA不同,ENA(Elastic Network Adapter)才是大多数人要用的网络服务,亚马逊云科技把SRD装了进去ENA之后,发布了一个叫ENA Express的新东西。

2022112914494780.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_492

其主要价值也是降低延迟和提升带宽,其中,带宽直接从原来的5GB/s提升到了25GB/s。

2022112914495345.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_606

对于用户来说,也是只管用就行了,应用方面不需要单独作出调整。

第三部分,机器学习方面的创新。

这部分,Peter重点介绍了如何提高机器学习训练效率的问题。

2022112914500153.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_677

如上图所示的是机器学习模型精度对训练时间的影响,16位计算精度的训练速度快(也省显存),但损失函数的值收敛不够,也就是说,训练出来的模型会很不准。

2022112914500965.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_715

32位计算精度可以,但比较费时间,浪费时间就意味着会更费资源,更费钱,为了保证精度的同时能缩短训练时间,人们搞出了混合精度的做法。

为了进一步减少训练时间,还有了叫STOCHASTIC ROUNDING的做法,这个具体是什么,我实在是听不懂,有点超纲了,大概知道这是一个优化训练过程的思路。(懂的大佬能用白话解释一下吗?)

不过,提高训练效率的另外一个思路是横向扩展,用多台服务器来一起做训练。虽然集群运算的效率高,但集群信息交换同步的问题也很大,因为信息交换同步本身就会消耗很多时间。

2022112914501783.png

Peter介绍了一个叫Ring of Rings(环中环?)的技术来解决信息交换同步效率差的问题。

2022112914502652.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_614

相较于传统的Single Ring的方案,能提高信息交换同步的效率,能把集群规模做的更大。

2022112914503483.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_718

目前,Ring of Rings技术支持开源的机器学习模型PyTorch,能把PyTorch的信息同步交换速度提高75%。

这么好的技术,怎么才能用上呢?

2022112914510752.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_640

于是Peter就介绍了新推出的Trn1n实例,它的芯片自然是去年发布的Trainium芯片,网络部分采用的是增强的1600 Gbps的EFA网络,这种实例更适合用分布式集群来训练超大模型。

第四部分,软件运行方面的创新。

这部分主要谈的是亚马逊云科技引以为傲的Serverless服务Lambda,具体说是减少Lambda运行软件应用时的冷启动时间。

2022112914511716.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_763

此前发布的Firecracker其实也做了一些优化,而今天又再进一步,这就是新发布的AWS Lambda SnapStart,它能把冷启动的时间缩短90%。

至于具体的技术实现的话,大致原理就是用了Snapshot快照技术来加快或者说绕开运行时环境初始化的时间。

关于Peter介绍的主要内容就先记录到这里。

以下是这两天的主要日程,喜欢熬夜的朋友可以蹲一下,我就不熬夜了。

202211291451468.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_430

我个人关注的会是CEO和CTO的演讲,渠道方面的不感兴趣,机器学习部分会酌情看一下,主要是预计我能听懂的不多orz。

最后,顺手贴一个注册观看链接:https://www.awsevents.cn/reInvent2022/registerSignUp.aspx?s=7982&smid=15580


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK