3

阿里云入局,全球争抢新一代云计算标准「定义权」

 2 years ago
source link: https://www.36kr.com/p/1788710989853061
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

阿里云入局,全球争抢新一代云计算标准「定义权」

晓曦·2022-06-17 06:40
阿里云携CIPU入局建立新一代云计算体系,在下一个技术时代争占一席之地

在2022年阿里云峰会上,阿里云正式发布了CIPU(Cloud infrastructure Processing Units)。这是一套阿里云历时7年所打造的云数据中心专用处理器,未来将替代CPU成为云计算的管控和加速中心。

「CIPU」虽然是个新名词,但「云计算管控加速处理器」却是近年间云计算产业大火的概念。

随着云计算技术的不断普及,产业诞生了越来越多超大规模的云计算服务器阵列,如何将这遍布全球的百万计算节点调度统一,成为了困扰云厂商的一大难题。

与此同时,近年大火的人工智能、自动驾驶等技术,更是催生了低延迟、高算力的数据密集型应用爆发式增长,传统的云计算发展路径越来越难以满足需求。

CIPU应运而生。

v2_9c61392008e6470d9ab141c3ffce9a47_img_jpg

01. CIPU,是跟跑还是领跑?

「云计算管控加速处理器」是目前云计算产业最火的技术之一。

三年前,英伟达就曾超70亿美元收购以色列芯片制造商Mellanox,以BlueField系列产品切入这一赛道;英特尔、Marvell、博通等厂商也纷纷发力,不断推出DPU、IPU等相关产品。

与此同时,创业赛道也是风起云涌。仅就国内而言,芯启源大禹智芯中科驭数、星云智联、云豹智能等DPU创业公司也在近年间纷纷斩获融资、发布新品,市场好不热闹。

作为云计算服务的提供者,也是芯片的最大用户之一,阿里云则在更早之前就在察觉到了这一技术的重要性。

在过去十多年的发展中,云计算技术先是完成了以分布式和虚拟化技术对大型机的替代,又以资源池化技术突破了规模和稳定性的瓶颈,为用户提供了超大规模的云计算服务。

不过,虚拟化与资源池化的技术遇上以CPU为中心的数据中心架构,又带来了新的问题。

举个例子,虚拟化能够将计算资源进行重新定义与划分,极大提高了信息资源的利用率,但与此同时,这项技术也会带来难以忽视的性能损耗。

为了解决服务器长久以来的虚拟化性能损耗的问题,阿里云的相关研发团队从2015年就开始技术攻关,并于2017年推出业内首款虚拟化损耗为零的神龙云服务器。

此后,经过多年自研迭代,阿里云又对神龙、弹性RDMA等核心技术不断深入整合,并逐渐演进出以「CIPU」为中心的全新架构形态。

在这个全新体系架构下,CIPU向上接入飞天云操作系统,向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速。

从部分功能上看,CIPU与英伟达、英特尔等产业巨头近年来陆续推出的DPU、IPU芯片新品相近。

不过,供应商的产品难以针对每一朵云进行深度定制,其产品更多还是以「协助」为主。

与它们不同的是,阿里云的CIPU在虚拟化、网络、分布式存储、本地存储、安全、运维、池化等多个方面,与阿里飞天云操作系统进行了深度融合,通过“软件定义、硬件加速”,不仅能够协助计算资源调度,更能够「管控」全局,将百万台服务器,变成一台「超级计算机」,全面放大技术优势。

“CIPU是云计算发展的一个必然。”阿里云技术产品负责人蒋江伟在采访中这样说道。

对于用户来说,CIPU的优势可以体现为:

1、性能更强

这是最直观的一项参数。蒋江伟表示,在CIPU的加持之下,原来需要3.5台服务器的计算资源才能完成的计算任务,如今只需要2.5台。

2、计算效率更高

通过CIPU对于计算资源的调度、协同、管控,让同样数量的计算资源发挥出更高的计算效率。

举个例子,一直以来,RDMA都是一个比较「贵族化」的技术,性能强大,但是技术门槛很高。想要用好它,对工程师、代码、硬件投入都提出了非常高的要求。

基于CIPU,阿里云推出了eRDMA(弹性RDMA)技术,通过它,阿里云能够将RDMA技术快速普惠化,让用户能够在云上大规模应用高性能网络加速服务,用同样的计算资源与人力投入,获得别人投入几百甚至上千人的研发效果。

3、系统更稳定

作为百万台服务器的「管控中心」,CIPU上还沉淀了大量的控制、调度数据,让阿里云能够根据这些数据提前预测单个节点产生故障的可能性,提前排查,保障数据中心的安全稳定运行。

基于CIPU和飞天的新一代云计算架构体系,阿里云在这次的2022年阿里云峰会上,又刷新了自己的数据记录。

CIPU加持之下,阿里云在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上。

CIPU与存储、网络的结合,则能够使阿里云云盘存储IOPS最高可达300万,长尾时延降低50%,网络时延最低达到5us,“访问云端比访问本地硬盘更快“。

“新一代云计算体系不仅会对云、对数据中心内部产生影响。这也会改变传统计算机终端形态、以及软件应用和开发界面。”阿里云智能总裁张建锋说。

v2_46edb8872428426a86663177b10250d3_img_jpg

02. 走进数据中心的云时代

改变以硬件为主导的传统IT体系,建立以云为主导的新体系,是每一个云厂商的技术理想。

而在数据密集型计算需求爆发式增长的当下,这一理想不仅仅停留在技术愿景与发展方向,而是成为了实实在在的迫切需求。

一方面,以AI为代表的新兴计算场景所需算力爆增。

根据OpenAI数据,自2012年以来,AI训练任务所需要的计算力每3.43个月就会翻一倍,六年以来累计暴涨超过30万倍,远远超过了摩尔定律的极限。以CPU为中心的传统IT体系已经无法满足日益增长的算力需求。

另一方面,随着自动驾驶、虚拟人等对低延迟、高带宽需求敏感的应用场景增多,用户对于云服务的速度、效率、稳定性都提出了更为极致的要求。

以特斯拉为例,其百万级的汽车保有量每日行进在路面上,其采集、分析、存储的数据量接近天文数字,无法全部靠终端进行处理。可汽车又是一款需要配备极高安全冗余的特殊终端,一旦需要接入云端服务,现有的IT体系几乎无法满足其需求。

此外,随着云计算应用的快速普及,越来越多应用场景开始从「南北向流量」演进为「东西向流量」,数据中心内部传输的数据量激增,大规模数据的传输与搬迁成为了限制云计算发展的又一难题。

以阿里云为例。阿里云在全球布置了上百万台服务器,属于超大规模的云计算阵列。倘若仅靠以CPU为中心的传统IT体系,几乎无法对这上百万台服务器进行计算、存储、网络资源进行统一的管理、调度、编排,让资源能够合理、高效利用。

CPU成为数据高速传输的瓶颈,云计算体系迫切地需要重构,需要新架构、新设计、新方案。全球顶级的IT巨头,都在寻找解决办法。

而在阿里云关于建立「新一代云计算体系」的答卷中,CIPU是关键一环。

在阿里云的这套新一代云计算体系中,话语权从「服务器里的CPU」移至「服务器外的CIPU」,CIPU相当于一个统领全局的云控制器,将集成、调度功能从不堪重负的CPU中抽离出来,承担着协调控制大量需要跨网络进行计算、存储、数据交互的过程。

有了这样一个更高层级的控制器,阿里云就能够突破超大规模资源池化的调度瓶颈,让陷入百万节点调度「泥潭」的数据中心能够轻装简行,更快、更敏捷、更灵活。

v2_301a328237bd4ea19594e52dd99488e6_img_png

得到减负的CPU,则可以继续发挥其核心算力提供者的地位,成为阿里云「一云多芯」体系的重要组成部分。

CIPU虽然是阿里云新系统的关键一环,不过阿里云对新一代云计算体系的布局,却并非是从CIPU才开始的。

早在去年,阿里云就宣布了其「一云多芯」的核心战略——以飞天操作系统为核心,全面向下兼容x86、ARM、RISC-V等多种芯片架构,以及飞腾、鲲鹏、AMD、Ampere等多种CPU,并将其封装成直接面向用户的标准算力,既解决了CPU不兼容导致的云和软件开发问题,又让更多种类的芯片进入云计算生态。

作为这套战略的一部分,阿里云还在去年推出了自研CPU「倚天710」,这是一款集成了600亿颗晶体管的5nm数据中心CPU,采用ARMv9架构,主频最高达到3.2GHz。这款CPU不仅为阿里云量身定制,更是阿里云「一云多芯」战略的延伸,加深了阿里云对底层硬件产业链更为深入、全面的理解。

目前,倚天710已在阿里云数据中心内部规模化部署,并顺利完成了2021年「双11」等多个核心业务。今年4月,基于倚天710的公共云 ECS实例也已上线邀测。

如今,阿里云「CIPU」的推出,则又更进一步地与一云多芯战略呼应,更进一步将以CPU为中心的传统云计算体系推向下一个时代,掀开了阿里云新体系的一角,从云效率最大化出发,重构数据中心,构建一个软硬一体的「新一代云计算体系」。

03. Back to Basic,阿里云的“定义权”理想

当前,海外IT巨头如AWS、谷歌、微软都在争夺下一代云计算标准的定义权,英特尔、英伟达等芯片巨头也都纷纷将业务发展重心瞄准了数据中心,阿里云此时携CIPU入局,云计算的战场无疑将变得更加有趣。

但这绝不是一场一劳永逸的战斗——这是一场长征,一场技术长征。

自「云计算」这一概念诞生以来,围绕着云计算技术标准定义权的争夺就从未停歇,几十年间,多少玩家浮浮沉沉。因为选错了技术路径、贻误了入场时机、放缓了前进脚步,导致最终总是落后市场半拍,跟着别人的研究亦步亦趋的故事,在IT产业里有很多。

举个例子,早在1965年——互联网诞生之前——IBM就开始研发虚拟机技术,并在此后推出了人类历史上第一个虚拟机系统CP-40/CMS。

然而,IBM高层错误地判断了云计算的市场发展,导致公司作为底层技术的先发者,却并未吃到云计算的第一口红利,而是在亚马逊2002年切入AWS的五年之后,才终于推出Blue Cloud计划,贻误了最好的战机。

国内云计算产业的发展也经历了类似的战局。

2007年,阿里率先入主云计算产业,启动飞天云操作系统的自研,开始不声不响地推行「去IOE」化。

阿里的新动作,行业并不是不知道,可互联网泡沫的教训仍旧历历在目,国内IT产业对此仍然存疑。在三年后那场知名的2010中国(深圳)IT领袖峰会上,两位技术出身的CEO——李彦宏与马化腾分别将云计算称为「新瓶装旧酒」与「可能要过几百年、一千年后才能实现」。

唯一一个非技术出身的CEO马云的观点则是「可能是因为不懂技术的缘故……我最怕就是老酒装新瓶的东西,你看不清他在玩什么,突然爆发出来最可怕。」

此后的十年间,阿里云以惊人的速度腾飞爆炸,带领了整个中国云计算产业迈向了一个新台阶。「飞天」成为我国唯一一个自研云操作系统,并陆续向下生长出芯片、服务器、操作系统、数据库、AI平台等以云为基础的软硬件技术体系。

在每一个新时代的清晨,选择正确的路径,拥有先发的优势,将意味着企业拥有对行业未来发展路径的定义权——这是每一个技术厂商的理想。

“这几年,我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代。”在2022年阿里云峰会上,阿里CTO张建锋这样说。

下一代的云——全新的架构定义,全新的软件界面,全新的硬件加速。

路径的选择源于对技术的深入理解,技术的理解源于扎实的基础研究。

阿里云今年最重要的策略是「B2B」——Back to Basic,回到云计算的本质,做深基础研究,坚持在技术的长征路上不断取得新的突破。

v2_f669fc38091a4c7991a6ada95222f176_img_jpg

阿里云张建锋:BACK TO BASIC 定义下一代的云

在这场新一代云计算路线之争上,阿里云打响了第一枪。

“我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”张建锋说。

本文由「晓曦」原创出品, 转载或内容合作请点击 转载说明 ;违规转载必究。

寻求报道 。

本文图片来自:企业官方


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK