6

云计算风向标:自研芯片重构云上算力

 1 year ago
source link: https://www.geekpark.net/news/312066
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
综合报道
9min read

云计算风向标:自研芯片重构云上算力

2022/12/02
0f267fbdf668e07390c0df3dc556f7f5.jpg

预言未来最好的方法,就是去实现它。

预言未来最好的方法,就是去实现它。

2017 年,网易游戏《荒野行动》出海日本。2018 年,这款游戏在日本手游年度收入榜排名第四,为网易带来约 25 亿元收入。

这个游戏出海成功案例的背后,是稳定、响应快、能快速扩展的计算基础设施。在国内,网易往往自己建设计算基础设施;而在海外,则采用混合云。通过亚马逊云科技提供的基础服务,网易搭建了一个可以快速扩展的云基础架构,满足了海外游戏业务快速增长的要求。

同年,亚马逊云科技推出第三代自研的 Nitro 系统,可支持最多 8 个弹性网卡,将网络负载均衡分布到 8 个 CPU 内核上,计算资源的总利用率提升了一倍。使《荒野行动》云计算成本降低了四成;而通过使用 Amazon EC2 A1 实例,音频语音服务和网络转发服务的云计算成本节省了一半。降低成本,提升效率,这是云计算的意义所在,而这还只是开始。

01 再次突破云技术边界

在 2018 年,亚马逊云科技发布了 Arm 架构的 Amazon Graviton 处理器。这是亚马逊云科技自研、为云计算而设计开发的芯片。2020 年 Graviton2 发布,性能比第一代提升了 7 倍;2021 年推出了第三代,性能比二代提升四分之一,浮点计算性能提高了两倍。

Epic Games 的高级工程总监 Mark Imbriaco 说:「基于 Amazon Graviton3 的 EC2 C7g 实例适用于最苛刻的延迟敏感型工作负载,同时能提供显著的性价比优势,并扩展了《堡垒之夜》内的可能性和任何虚幻引擎营造的体验。」F1 赛车管理公司发现,C7g 实例比 Graviton2 C6gn 实例快 40%;Twitter 认为基于 C7g 实例的性能比基于 Graviton2 的 C6g 实例高出 20-80%,同时还将尾延迟减少了 35%。

今年,正在拉斯维加斯召开的 re:Invent 2022 大会上,亚马逊云科技发布了 Graviton3E。这是针对高性能计算优化的版本,面向机器学习浮点和矢量数学计算做了优化,在 HPL 基线测试中,工作负载的性能提高 35%。基于 Graviton3E 芯片,亚马逊云科技推出了面向高性能计算的 HPC7g,适用于天气预报、生命科学、工程计算等高性能计算场景,最多可以提供 64 个 vCPU 和 128GiB 内存。

edc39a3e3e8a604f7543417e3f7084c4.jpeg

Graviton 并不是亚马逊云科技设计的第一块芯片。2013 年,亚马逊云科技就推出了首颗自研的 Nitro 芯片,意在通过定制硬件,降低虚拟化的消耗,将更多服务器资源提供给用户。这是长期探索后的必然之举。2006 年,亚马逊开始尝试提供云服务,起初使用基于 Xen 架构的虚拟化系统,但很快发现这种方式大概只能将七成服务器资源提供给用户,而且无法满足用户的稳定性和性能要求。

Nitro 系统的引入,提升了计算实例的安全、性能以及创新速度。亚马逊云科技在 2017 年推出了第三代 Nitro 芯片,2020 年开始使用第四代 Nitro 芯片作为所有计算实例的基础。经过迭代,Nitro 系统提供输入/输出资源和管理功能,包括网络、块存储、安全与虚拟机管理等。

在今年的 re:Invent 2022 大会上,亚马逊云科技高级副总裁 Peter DeSantis 发布了第五代 Nitro 系统,相比于前一代产品,晶体管数量比前一代增加了一倍,提供更高的计算性能,同时 DRAM 内存性能提升了一半,PCle 带宽提升两倍,降低约三成延迟,每瓦性能提高四成,网络转发性能提高六成。配备 Graviton3E 和新一代 Amazon Nitro v5 的 C7gn 实例,比 C7g 网络带宽提升了一倍,每秒数据包转发性能提升 50%,为网络密集型工作负载提供了超高的网络带宽、数据包转发性能和性价比。

c6e500599ab479fef28167d24bef7fbb.jpeg

「我们一直在创新。」Peter DeSantis 说,「在不需要牺牲安全的情况下,减少我们的成本,同时提高我们的性能,让客户应用获得更好的体验。」

至于网络,今年 re:Invent 大会上也公布了新的进展。Peter DeSantis 表示,相比于传统的 TCP 单路径路由网络,亚马逊云科技自己的 SRD(Scalable Reliable Datagram)协议使用了多路径路由,将「以微秒而不是毫秒」重新传输丢弃的数据包,并加速托管在亚马逊云科技上的网络。SRD 基于 Nitro 硬件调整和优化,其性能优于 TCP。亚马逊云科技推出了 ENA Express,以为 Elastic Fabric Adapters 提供支持的 SRD 协议为基础,与 TCP 相比,P99 延迟减少了 50%,P99.9 延迟减少了 85%,同时还将最大单流带宽从 5Gbps 到增加到了 25Gbps。

b3e5b99fa8b3ce1fceb804b4b9d4b17f.jpeg

也许可以这样说:Nitro v5 + Graviton3E + SRD for Everything——亚马逊云科技再次突破了云技术边界。当计算能力提升了,资源限制减少了,网络性能提升了,那么接下来呢?

亚马逊云科技认为,云计算的未来,是 Serverless——无服务器技术。

「Serverless」这个术语最早出现在 2012 年发表在 ReadWrite 上的一篇文章中。作者 Ken Fromm 认为,Serverless 意味着开发人员不再需要考虑对基础设施资源的管理。通过消除后端基础设施的复杂性,Serverless 让开发人员将注意力从服务器级别转移到应用和任务级别。Serverless 意味着计算资源对开发人员透明,开发人员只要关注业务逻辑即可。

但是在当时,这个概念并没有掀起什么波澜。2014 年,Amazon.com 首席技术官 Werner Vogels 博士在 re:Invent 全球大会上发布了 Lambda 服务,重新定义了云计算的 Serverless 化发展理念,这一概念才开始广为人知。至今,亚马逊云科技已累计发布了超过 100 款新的 Serverless 功能,活跃用户超过 100 万,同时每月的调用请求量超过 100 万亿次。

现在,Lambda 的改进依然在继续。长期以来,冷启动时间一直是对 Lambda 最大的优化需求之一。过去,借助 Firecracker MicroVM,已经可以将冷启动时间从几秒缩短到不到一秒,而在这次 re:Invent 大会上,亚马逊云科技宣布了新功能 SnapStart,通过创建客户 Lambda 函数快照,可将冷启动时间进一步缩短 90%,几乎即用即开。

17cabefb2eddbe289463b17d8049eb93.jpeg

即需即用,按触发次数付费,不使用不付费;功能松散耦合,降低开发难度,提升开发敏捷性。对云计算的使用者和开发者来说,Serverless 看起来都是好选择。

02 Serverless 时代已全面到来

北京时间 11 月 30 日,亚马逊云科技 CEO Adam Selipsky 的主题演讲开始了。这场演讲重点围绕数据、安全、计算性能和行业应用,旨在帮助云计算用户快速实现数字化转型。Adam Selipsky 认为,数据世界的方向是数据、数据分析、数据库、机器学习的结合,要真正了解数据流的全过程,从数据进入组织,到利用数据协作、共享、做决策,需要从端到端的视角认识数据。亚马逊云科技在正努力研究端到端的数据之旅,并在数据之旅的每一站都构建强大的功能和服务。

9546499405118964d4185d6da09a289b.jpeg

在这场演讲中,「Serverless」一直是个隐藏的关键词。毕竟,用户在面对越来越多的数据服务时,会更关注其易用程度,而非底层的基础设施。

Serverless 架构让应用开发更敏捷,并改进了性能和可扩展性,从而满足快速数据增长、多样化的数据源和数据模型。亚马逊云科技已经实现了数据的无感知自动化流转与一体化融合,并且帮助缩短人工智能相关应用的开发周期,帮助实现模型验证流程自动化。

在 Serverless 环境下,开发人员只需要编写云函数,设置好触发云函数运行的事件就可以了,对计算资源的管理工作完全由云计算提供商来承担:选择实例、部署、容错、监控、日志、安全补丁等等等等,都无需用户操心。而且,与传统云计算收费方式不同,Serverless 按照函数执行时间收费,而非按照预留的资源收费。这意味着更细粒度的管理方式,更低的成本支出。目前来看,Serverless 是开发新应用最快速的方式,也是总成本最低的方式。

亚马逊云科技已经从计算、存储、应用集成、数据库、数据分析、人工智能等多个服务领域全面推进 Serverless 进程,领跑完成了 Serverless 在云服务上的全面布局。在计算领域,有 8 年历史的 Amazon Lambda 是无需设置和管理服务器即可运行代码的计算服务,Amazon Fargate 是随用随付的计算引擎;在数据存储领域,最受欢迎的 Amazon Aurora 早在 2018 年就已推出 Serverless 版本;2012 年上线的 Amazon DynamoDB 作为云原生的 Serverless 架构键-值数据库,能为用户提供了极高弹性、可用性和性能。除了这两款知名度较高的产品外,适用于低延迟高速处理的宽列数据库 Amazon Keyspace 和图数据库 Amazon Neptune 也同样有 Serverless 版本——事实上,亚马逊云科技已经有 7 款 Serverless 数据库引擎了。

而在数据分析领域,从久负盛名的 Redshift、大数据分析 EMR、流式数据管道 MSK 和数据引擎 Kinesis,到数据集成工具 Glue、数据查询工具 Athena,再到日志分析工具 OpenSearch 和商业智能服务 QuickSight Q,都已经实现了 Serverless 化。Adam Selipsky 在 re:Invent 大会的主题演讲中特别介绍了这一系列工具,这是行业中的首创,没有任何其他厂商做到——亚马逊云科技已经在数据分析 PaaS 领域实现了数据仓库、大数据平台、流式数据分析的 Serverless 化,将数据 Serverless 能力拓展到了全栈。

904cc2ef15fc26abefe4c34d951a7cc9.png

与此同时,不确定性的压力也在促使各行各业拥抱 Serverless:无论是大型多人在线游戏,还是领先的交通和汽车企业,亦或著名的消费品企业,都已经开始使用 Serverless 架构。利用 Serverless 带来的极致敏捷和高扩展性与低成本,来更好面对这个愈加不确定的世界。

Adam Selipsky 说:「亚马逊云科技目前已经提供了 200 多项云服务,但创新还远没有结束。亚马逊云科技会在构建新服务、深化现有服务的功能、整合不同服务三个方面不断投入。」

今天我们的世界已经分成了两个:一个是由原子构成,另一个则是由比特构成。两个世界同样真实,且我们正在越来越多地运用后一个世界来管理和影响前者。人们希望在数字世界更加自由,摆脱物理规则的束缚,而Serverless化是实现这样的未来的途径,也是亚马逊云科技正在努力的方向。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK