2

AI创新挤压算力弹性,亚马逊云科技如何满足井喷的算力需求?

 1 year ago
source link: https://www.dingkeji.com/post/sj/152277.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI创新挤压算力弹性,亚马逊云科技如何满足井喷的算力需求?--丁科技网

AI创新挤压算力弹性,亚马逊云科技如何满足井喷的算力需求?

生成式AI爆发为代表的这一轮AI创新潮,机遇和挑战并存。丁科技网注意到,挑战,对于AI技术创新者和AI服务创新者而言,很大程度上在于,AI技术的爆发直接推动了对算力资源需求的井喷式增长。

除了提供AI相关技术和生态赋能之外,针对算力需求井喷,亚马逊云科技通过自研芯片创新、弹性的计算存储组合以及Serverless架构,帮助客户简化运维,以更高性价比满足多样算力需求,帮助客户有效应对由于AI创新技术带来的IT压力。

“2023亚马逊云科技中国峰会”上,亚马逊云科技大中华区产品部总经理陈晓建表示,AI创新推动算力需求井喷,有三个特点:一是,需要更高性价比的软硬件解决方案以应对算力资源紧缺;二是,云服务需要提供快速高效的弹性资源供给,以应对生成式AI的迅速发展和快速变化的业务需求;三是,云服务需要进一步降低使用门槛,让客户能快速上手。

2f3eab8da3b44591903bff3365a613e6~noop.image?_iz=58558&from=article.pc_detail&x-expires=1689727447&x-signature=RJgn4mdGLXhHYJWOmgk5WeKczxg%3D

亚马逊云科技大中华区产品部总经理陈晓建

亚马逊云科技的针对性策略是:

其一,针对算力需求紧缺,提供全面深入的基础设施能力,包括Intel、AMD、英伟达,和自研的CPU及加速芯片产品。特别是,自研芯片产品,在不断的创新迭代中。

Nitro,是亚马逊云科技的第一款自研芯片产品,去年推出的第五代Nitro将每瓦性能提高了40%,提升性能、降低干扰、保证安全:

实现了非常轻量级的虚拟化,性能损耗极低,在此前业界经常看到的虚拟化损耗通常在20-30%之间,Nitro通过硬件虚拟化,整个性能损耗不到1%;实现了网络和存储在硬件级别的隔离机制,让用户通信和拥有存储的数据通信之间完全隔离,不会造成互相的干扰;在硬件层面实现了硬件的加密,任何进出Nitro的数据包都会进行硬件级别的加密,最大限度保证用户数据通信的安全。

Graviton,Arm架构的通用处理器Graviton 3与上一代产品相比,计算性能提高25%,浮点性能提高2倍,加密工作负载性能最多加快2倍;第四代产品Gravtion3E在针对高性能计算应用场景的向量计算性能上,再提升了35%。

机器学习训练芯片Trainium,HuggingFace BERT模型作为案例来看,基于Trainium的Trn1实例和通用的GPU实例对比,在训练的吞吐率上面,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍,从成本考虑,单节点成本可以降低1.8倍,集群的成本更是降低了2.3倍。增强型Trn1n实例的网络带宽跃升至1.6Tbps,可将万余个Trainium芯片构建在一个超大规模集群上,实现对超大模型进行并行训练。

机器学习推理芯片Inferentia,2019年推出了第一代用于机器学习的推理芯片Inferentia,所对应的实例Inf1和同样基于通用GPU的EC2实例相比,带来了70%成本的降低;2022年又推出了第二代推理芯片Inferentia2,进一步提升了4倍吞吐量,延迟只是之前的1/10,通过优化,第二代Inferentia可以大规模部署复杂的模型,例如大型语言模型(LLM)和Diffusion类模型。

Inferentia在设计的时候就考虑到了“高吞吐率”和“延迟优化”,使得用户两者可以兼得。以自然语言常见的BERT模型为例,In2实例的吞吐可以提升三倍,延迟降低了8.1倍,而成本只是通用GPU实例的1/4;以开源模型OPT-30B为例,相比于通用GPU EC2的实例,In2实例吞吐率增加了65%,而推理成本则降低了52%,如果用更大的660亿参数的OPT-66B为例,通用GPU已经力不从心,但In2实例依然可以保持每秒351个token数的吞吐量;视觉类模型以Stable Diffusion 2.1的版本为例,Inf2实例可实现50%的成本节约。

其二,针对弹性资源供给,提供600多种不同的计算实例,从处理器、网络和存储等各种服务都能够与计算进行很好的结合,以积木的方式搭建出一个丰富灵活的计算实例的资源,满足多种不同算力的要求。

以存储为例,数据规模到达PB级别时存储方式变得非常重要,“热、温、冷、冻”不同类型的存储方式,成本和性能都有很大差别。Amazon S3对象存储提供8种存储层级,同时提供智能分层,自动选择最适合的存储层级。

其三,针对简化算力应用,推动云服务全面迈向Serverless。

亚马逊云科技在不断探索如何将云的弹性、敏捷性、按需付费的特性发挥到极致,在这个过程中,逐步推动着云服务全面迈向Serverless。现在,已经实现了全栈数据服务的Serverless化,开启了云服务全面Serverless的时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序或后端服务代码,帮助客户最大限度减轻运维工作,并增加业务敏捷性,更好地应对业务的各种不确定性。

陈晓建总结表示:“面对算力的需求井喷所带来挑战,我们通过自研芯片提供更好的性价比,通过各种丰富的计算、网络、存储等各种产品的组合应对突发的算力需求,通过Serverless有效降低运维的复杂性,从而简化算力的使用,全面满足用户的多样化的算力需求。”

“现今创新至关重要,云技术能更快、更高效地帮助企业创新,亚马逊云科技广泛和深入的服务可以让客户摆脱基础架构的束缚,专注于创新。”(丁科技网原创,转载务必注明“来源:丁科技网”)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK