1

阿里云 CIPU,是一场「原生」的冒险

 2 years ago
source link: http://www.geekpark.net/news/303795
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
鹏友说
8min read

阿里云 CIPU,是一场「原生」的冒险

2022/06/15
3fcd19def08c3be128ea3495ef93d508.jpg

谁能重新定义计算,谁就能重新定义商业的未来。

过去几十年来,很多商业变革的背后,如果去追溯的话,都可以在计算的变化上找到起点。从计算能力遵循摩尔定律不断攀升,最终解锁了智能手机,带来了移动互联网;到云计算的出现解决了超高并发和大算力的经济性问题;再到现在追求计算的可信与安全,而不是计算效率和计算经济性的区块链… 可以说「计算」这个核心点,就是数字经济永恒的发展基础。技术能力的变化,以及它要解决问题的目标的变化,每跳动一次就意味着一次商业变革。

当然,不论到什么时候,计算效率的提升都是重要的问题,而效率提升最终还要回到芯片和系统的底层去寻找空间。

最近,我看到阿里云做了一件事,发布了一款自主研发的云数据中心专用处理器 CIPU(Cloud infrastructure Processing Units),并表示,CIPU 是一款为「飞天」操作系统设计的专用处理器,它将取代 CPU 成为新一代云计算架构体系的处理中心。

这里让我疑惑的是:新概念在云计算产业中并不稀缺,单是包括 IPU、TPU、DPU 和各种 AI 芯片已经让人应接不暇了。而阿里云推出的 CIPU 究竟是什么?它和之前的概念有什么区别?它会给我们带来什么?

01 CPU 的困境,CIPU 的缘起

我觉得阿里云推出 CIPU 其实是「蓄谋已久」:

他们之前推出的「飞天」,据说是中国唯一的自研云操作系统,这些年更是一直都在持续地投入自研云技术;去年的云栖大会,又一口气发布了磐久、倚天、神龙 4.0 和灵杰几个重磅产品,一步步地在「做深基础」「向下生长」。

get?code=MDdmYzZmNjM3NmU4ODQ2MDE5YzcxOWU3YjE1OTU4ODIsMTY1NTI4Njg2ODY4MQ==
图|阿里云 CIPU 发布

这次专门面向云数据中心设计 CIPU,依旧可以看作是阿里云「向下生长」逻辑的延续。

但想更好地理解 CIPU 的出现,还是有必要先说说数据中心的这些年的变化。

数据中心有个古早词汇叫「机房」,一听就有点旧工业气息,在互联网发展的早期阶段,它确实也技术含量不高,更多的就是用来堆放计算机。但随着互联网的发展成熟,数据中心越来越成为「业务和流量复杂性的聚集地」,涌现了一系列的技术创新。

一众科技巨头比如亚马逊、微软和谷歌等也嗅到了数据中心领域的机会,纷纷重金投入,进行自研自建。阿里云这边,2020 年 4 月就宣布了未来 3 年要再投 2000 亿,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚和面向未来的数据中心建设。

除了看到机会,巨头们花这么大力气自研数据中心,也是因为传统数据中心的软硬件从性能、成本角度还是落后,云数据中心才能解决大规模的计算问题。既然现有设施不能满足,就干脆重新面向云环境去做更加原生的设计,甚至可能还要体系化地重构。比如,CPU 芯片,其实并不是为了面向搭载云操作系统而设计。

阿里云的同学和我说,在过去十多年,云计算技术发展经历了两个阶段:第一阶段是分布式技术,推动互联网企业从大机向分布式系统整个迁移;第二阶段诞生了资源池化技术,进一步提高了云计算的可靠性和可用性。在这两个阶段中,都是基于传统的、以 CPU 为中心的计算体系架构去做优化。很显然,当阿里云自研了云操作系统飞天之后,对于 CPU 的优化只是时间和具体路径的问题。

国际数据公司 (IDC) 一项数据显示,全球数据量在过去 10 年年均复合增长率接近 50%,并进一步预测每四个月对于算力的需求就会翻一倍。这就意味着,随着摩尔定律的失效,CPU 的性能会到达天花板,数据量增长后的处理需求可能难以为继。

此外,企业在大数据、 AI 等数据密集型计算的应用场景下越来越多。阿里云基础产品首席架构师黄瑞瑞也强调:「我们发现现在云上有很多的核心应用,实际上是数据密集型的应用。在服务这么多客户以后,我们发现客户对我们的诉求是逐步从业务逻辑为中心,转向了以数据处理为中心。」

这其实都在不断地提高了对云计算提供的低时延、高带宽的要求。在阿里云看来,以 CPU 为中心的计算体系架构已经很难适应,面临着很大的挑战:以 CPU 为中心的架构数据吞吐小,计算和网络传输的时延大,也无法解决超大规模的复杂管理问题;大数据应用增多,导致数据中心内部数据迁移量增多,以 CPU 为中心的架构无法提供高带宽。

是时候需要去改变了。

阿里云的思路,其实就是从数据中心的内部体系结构里做了体系化创新,将过去以 CPU 为中心的体系架构,变成了以云操作系统+CIPU 为中心的体系架构。

get?code=YzI3ZDQyYjQ0ZjE5NjYwZTBjYzJjMDVjYWQ2YTNhY2MsMTY1NTI4Njg2ODY4Mg==
图|阿里云 CIPU 架构示意图

在这里面,飞天云操作系统是跑在 CIPU 上,从而可以获得更好的管理能力。黄瑞瑞进一步补充:「我们希望上百万台服务器整体纳管、整体编排、整体调度起来,变成一台超级计算机。这个本身也是『飞天+CIPU』想要达到的目标」。

换句话来说,「飞天+CIPU」其实是云计算数据中心体系架构的变革,而 CIPU 更像是一个大数据中心、大云计算的控制器,支撑云操作系统更高效地做云资源的管理和加速。

02 CIPU 会更有机会吗?

CIPU 当然不是唯一。围绕数据中心的计算,在芯片和软件上已经出现了一系列的创新,甚至还产生了不同技术的演进方向。

比如 NVIDIA 公司 2020 年发布的 DPU(Data Processing Unit),它定位在数据中心里继 CPU 和 GPU 之后的「第三颗主力芯片」。在功能上,DPU 作为计算卸载的引擎,直接效果是给 CPU「减负」。之后在 DPU 方向,涌现了一批的创业公司。而英特尔依据数据吞吐类应用快速增长的趋势,在 2021 年推出了 IPU(Infrastructure Processing Units),融合了与云厂商合作的经验,试图去 CPU 提高数据密集型场景的能力。

在阿里云看来,IPU 代表的虚拟化云化能力,和 DPU 代表的数据搬迁带宽能力,很难融合,只有云厂商能真正做到,并且规模落地,而 CIPU 能够突破以上两者瓶颈。

在和阿里云内部的交流中,我感受到他们的很强的自信,因为一旦掌握了产业 Know-How,就有机会去定义未来。阿里云基础产品负责人蒋江伟也强调,「我们 CIPU 最大的不一样,其实是用我们顶层定义的飞天云操作系统,垂直根据业务驱动往下定义了芯片。」

应用设计领域,最近流行着一种云原生 (CloudNative) 理念,其目标是探寻云应用设计的最佳实践路径,以充分发挥云的效能。在云原生浪潮之下,以往的关注视角,都是从基础设施向上看,聚焦在 PaaS、SaaS 以及应用侧。但应该还有一种视角,是往下看,比如数据密集型计算的上层需求,也在推动硬件侧「原生化」。云原生应该同时包含软件和硬件的概念。

实际上,在「CIPU+飞天」的组合中,阿里云是先把云操作系统做得非常成熟。通过对于飞天的定义和迭代,实现了对于客户需求的清晰化的感知。在此之后,才去做 CIPU。为云而生的 CIPU,与底层基础设施进行深度定制,可以更精准垂直去解决云操作系统的管理问题。在某种程度上来讲,在这个过程中,其实是完成了对于 CPU 的云原生化。

原生的最大意义是什么?也许就是实现极致性能和体验。乔布斯在第一次 iPhone 发布会上引用了图灵奖获得者 Alan Kay 的名言:「对软件极度较真的人,应该生产自己的硬件」。

get?code=MTg5OGU3N2RiNzRlOWUyMmRjMjc3ZWY4NDUwOWQwZDIsMTY1NTI4Njg2ODY4Mg==
图|乔布斯在发布会上引用了 Alan Kay 的名言

如果去追溯苹果的发展,会发现阿里云「云操作系统+CIPU」的路径选择与苹果有着有趣的相似。苹果手机先有 iOS 操作系统,一开始用的其实是三星的 CPU,后来用了自己 A 系列的 CPU;Mac 最初用了英特尔的 CPU,最后变成自研的 CPU,比如 MI 和 M2 芯片,性能惊人。通过自研的软硬件一体,苹果创造了极富竞争优势的用户体验。两个不同领域的公司,都在通过类似的方式去定义各自行业的未来。

当然两者有着表面上的相似,更有着不同。

苹果作为终端产品需要考虑复杂生态的互联互通的问题,使用的场景是人机交互,这其实意味着可能因为路径依赖的问题,产品并不是遵循效率第一的原则,甚至效率的提升要伴随着巨大的阻碍,从而并不能实现原生意义上的「极致」。

比如,「QWERTY」键盘发明的初衷,是为了解决早期的机械打字机键盘的工艺发展不成熟,当打字速度太快时,很容易发生「卡壳」的问题。作为发明人美国人克里斯托夫·肖尔斯选择了「反人类设计」,把常用字母安排在不顺手的地方,从而降低打字员的速度,来解决这个问题。尽管后来随着加工技术的进步,出现了更高效率的字母排列组合的键盘,但是却没有成为主流。

而「CIPU+飞天云操作系统」不同:首先它是面向数据中心的,是系统级别的,而不是像苹果产品是单机的。其次它更多的是满足了机器与机器的交互。相比于终端,阿里云通过 CIPU+飞天操作,更容易实现原生。

CIPU+飞天操作系统在调度效率及运行算力方面,为性能和体验带来了极大提升,而客户端并不需要做任何代码的修改,就能无感的享有这种云算力带来的加速。

此外,从阿里云的产品布局来看,「CIPU+飞天」可以与其他自研产品,比如神龙计算平台、盘古存储平台和洛神网络平台等进行深度的适配。从而实现在总体上带来更好的性能乃至于更优的性价比。

换个视角来看,阿里云推出以 CIPU 为中心的云计算架构体系,其实意味着这家公司在尝试去定义新一代云计算的标准。这里面未来的进展以及可能的变化,还都挺值得关注的。

很多人认为,阿里做电商、支付以及物流都对中国意义重大,我觉得这其实只是阿里对于中国商业影响的一部分。

在数字化和智能化转型席卷各行各业的今天,阿里云的新计算,带来新的商业变革,也许更是阿里对中国商业产生影响的另一个重要的维度。

云计算似乎又进入了一个关键的突破期。阿里云智能总裁张建锋说:「我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代,需要定义一个全新的技术体系。所以,今年我们最重要的策略是 B2B,就是 Back to Basic,回到云计算的本质。」

我觉得,很多时候想真正去定义云计算产业发展的未来,这首先比拼的是独立思考的能力,特别是对未来计算问题的定义。而阿里云在做的努力,值得密切关注。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK