11

编解码持续升级,「硬」实力铸就视频云最优解 - 阿里云视频云

 1 year ago
source link: https://www.cnblogs.com/VideoCloudTech/p/17285491.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

算力时代,视频云需要怎样的 CPU?

在数据爆发式增长及算法日益精进的大背景下,属于「算力」的时代俨然到来。随着视频成为互联网流量的主角,日趋饱和的音视频场景渗透率、人类对“感官之限”的追求与突破、更多元化的场景探索及技术需求,为视频编码能力和底层算力及硬件支持带来更大的挑战。

“视频云作为音视频行业的基础设施,能极大地简化视频从采集、处理、编码、传输到分发的全链路流程。”正如阿里云视频云技术负责人在《芯事》访谈中所提到的,阿里云视频云与倚天 710 一起,正在踏上视频普惠千行百业的新征程。

点击链接查看视频:https://www.eefocus.com/video/1462707.html

视频云与倚天 710 的结合

2022 年北京冬奥会,阿里云承接了一项重要的任务,那就是支撑冬奥全面上云。为此,阿里云视频云推出了全新的云上创新解决方案——阿里云聚“Alibaba Cloud ME”,这也是全球第一次在奥运会上实现异地全息会面,是一次打破时空之距的革命性创新。在感叹云上沉浸之旅的精妙之余,我们不禁要问,阿里云视频云上路即狂奔的硬实力是什么?除了使命必达的奋斗精神和强大的软件、算法支撑能力以外,阿里云视频云技术负责人致凡还提到了倚天 710。

当我们将目光投射到倚天 710 上,会发现它诞生于 2021 年,是一款由平头哥自研的云芯片,经过一年多时间的硬件部署和业务验证,倚天 710 实例已成功应用到阿里巴巴集团的核心业务中,并服务多家知名互联网及科技公司。正是基于前期优良的表现,倚天 710 已在阿里云数据中心部署,未来部署规模将继续扩大。当然,没有一款芯片生来就如此强大,视频云技术负责人谈到:“视频云和倚天 710 的结合是一段美好的旅程,但中间还是经历了非常多的事情。”

回忆起这段旅程:“由于视频业务的增长速度是非常快的,研制一颗芯片的周期也非常长,不论是芯片研发、还是芯片落地后适配视频云业务成长,都是极具挑战的,但我们一起做好了正视挑战、突破壁垒的准备。当第一版芯片流片回来后,芯片基本性能表现稳定,且由于 Arm 架构带来的原生优势,再加上阿里云和平头哥的同学双方坐在一起,在了解芯片内部构成的基础上去做了很多算法调优后,能够让代码在芯片上跑得更快。

同时,倚天 710 还针对特定算法场景进行了指令集加速与优化,比如像 SVE 等矢量计算技术,其中 BF16/INT8 mmla 指令可实现高效的矩阵乘法运算,还支持 Hash、CRC32 等加速指令,可以让单条指令并行处理更多数据,大幅提升视频编解码、AI 编解码增强等场景性能,这是一个两边一起迭代的过程。”

所以,从最早的性能挑战传统架构 CPU,到现在已经远远超过传统架构 CPU,倚天 710 的“蜕变”是一步一个脚印走过来的。视频云技术负责人认为:“这是一个非常好的案例,阿里云视频云的业务跟平头哥的芯片设计能够完美地结合在一起,利用各自的优势让芯片设计出来,在视频行业中发挥更大的作用。”

谈起平头哥和阿里云视频云业务的这次合作,就不能不提到一个大的产业背景,即视频云的爆发式增长。至于什么是视频云?“视频云就像是音视频行业的水和电,是底层的基础设施,可以大大简化视频从采集、处理、编码、传输到分发的链路。”这个比喻再恰当不过。

社会视频化在狂飙

从 2017 年开始,短视频的热度持续上升,加上近三年疫情下直播、视频会议、线上教学等领域的崛起,社会视频化成为一种大趋势。根据 CNNIC 发布的第 50 次《中国互联网络发展状况统计报告》数据显示,截至 2022 年 6 月,我国移动互联网接入流量达 1241 亿 GB,同比增长 20.2%;另根据思科发布的数据显示,视频内容约占互联网总流量的 90%,占移动网络总流量的 64%。结合这两组数据,我们可以得出视频正在成为互联网流量的主角,而爆炸性的数据量又将会对算力和存储提出更大的挑战。 

于是视频云的价值被凸显出来,并呈现出了一种不可逆的发展态势。在这样的大背景下,全球以互联网公司为主的科技企业纷纷转型,开启视频云技术的探索之旅,并在安防监控、远程医疗、零售电商以及金融机构等典型场景中得到落地。当前,视频云产业已经形成了相对稳定的头部战队,包括微软、AWS、阿里云等主流云厂商。

关于国内视频云的市场体量方面,根据 IDC 发布的数据显示,2022 上半年中国视频云市场规模达到 50.5 亿美元,同比增长 15.7%,预计到 2026 年,市场规模接近 300 亿美元。值得一提的是,通过报告显示,阿里云视频云连续 5 年占据中国视频云整体市场份额第一,并且渗透率还在不断攀升。

视频产业倒逼技术迭代

对于视频云产业来讲,以在线视频为例,从最早国外的 Livestream、国内的斗鱼直播到现在,已经经历了 25 年的历史,其实从技术的角度来看,整个行业发展的速度没有想象中的快。比如,视频编码从 H.264 到 H.265,再到 H.266,平均 10 年升级一代。为什么速度不是很快?因为它要解决的问题比较多:算力、网络传输、标准等等。但是,我们看到今天的视频产业发展非常迅猛,这也倒逼技术要去完成快速迭代。这几年已经初显效果,比如现在编码器的升级迭代速度是 5 年,以前是 10 年,预计后面可能是 3 年。

为什么这里要强调编码?事实上,视频云是一个算力密集型行业,视频信息量很大,假如采用和文本、图片一样的压缩模式,那么还原度是不够的,所以视频必须进行编码处理。编码要是做不好,不仅会损失视频质量,还会带来传输难度高的问题。从 MPEG2 开始,每一代视频编码的升级,其压缩率大约可以提升 50%,远低于视频分辨率每更新一代提升 4 倍的速度,即使这样,每一代升级对 CPU 算力的需求,以及算法复杂度都会提高至少 10 倍以上,这对芯片的架构、芯片底层的指令集优化、芯片的存储器和 cache 结构都会带来新的挑战,很多核心的算法要用新的指令集重新写一遍,这意味着视频编码和芯片成长是需要同步的。

视频云需要怎样的 CPU?

通过前面的介绍,我们了解到视频编码对算力的要求很高,因为我们常常试图用算力换存储,用算力换传输带宽,所以我们希望算力越高越好。

那么如何提升 CPU 的算力?首先要选择好的内核架构。在视频领域,传统架构已经有三十几年的历史了,目前市占率依然能达到 90%以上的份额,但裹挟着沉重的向后兼容包袱。而 Arm 作为一种精简指令集,不仅没有历史包袱,还可以根据需求增加很多寄存器,同时从内存 cache 结构的设计和指令集的设计上面,能够更贴合需要大算力的视频处理需求。此外,不管是 Hyper-Threading 还是其他,采用传统架构的 CPU 走的都是提高主频的路子,在视频处理时就会遇到一些问题,比如视频压缩的时候会分成 I 帧、P 帧、B 帧,每一帧的算力并不是平均分配的,就会带来对算力需求不稳定的问题。

所以为了让芯片不跑超频,就可能会做一些降频处理,这时候它的算力就可能达不到相应的编码需求。在实际业务中,由于视频业务不是单机运行的,会有很多的服务器集群配合来处理,为了防止 CPU 跑超等复杂情况的出现,就不得不把服务器集群的水位降低,这是传统架构 CPU 比较大的问题。然而,Arm 整体的设计是比较稳定的,不管任务有多复杂,都能实现稳定输出,做到良好的资源调配和水位调配,不用预留很多冗余来防止芯片跑超,这对于 to B 业务来说非常重要。

除了主频高以外,传统架构 CPU 的核不多,通常是两个 vCPU/HT 共享一个物理核、1 份 ALU,但 Arm 可以实现 128/256/512 或更多的核,类似 GPU 的设计,如此一来,对于不同应用场景而言,就可以用少核应对低算力需求的场景,多核应对高算力需求的场景,实现更优的业务调配,降低投入成本。以倚天 710 为例,内含 128 核 CPU,主频 2.75GHz,可适配云的不同应用场景。

与此同时,随着数据上云越来越多,对于数据中心而言,功耗性能也是非常重要的,对运营者来说,低功耗就意味着低成本,除了软件层面的优化以外,倚天 710 能同时兼顾高性能和低功耗。

以上要素叠加,就让视频云的头部企业阿里云与倚天 710 的结合看起来水到渠成。当前,倚天 710 已大规模部署并提供云上服务,根据实践反馈,倚天 710 让阿里云平台的算力性价比提升了超 30%,单位算力功耗降低了 60%,这是一个相当大的进步。

探索一种平衡

纵观视频云产业,人们对体验的极致追求,将成为视频云持续深耕的动力。在云应用场景下,CPU 的发展之路将循着算力、I/O、网络协议适配、推理能力、从无到有的创造能力不断演进下去。未来,Arm 会成为视频云中一种重要的架构,整体份额一定会增加,但不会是唯一的架构,传统架构、异构的 ASIC 和 FPGA 都会有一席之地。而对于 Arm 架构而言,未来的改进方向是降低功耗、提高算力、做好专用性和通用性的选择平衡。

同时,我们要意识到,未来视频对算力的挑战是非常高的,简单地靠 CPU 的升级已经满足不了需求,需要一些特殊的处理,包括越来越多的 AI 算法、专用算法,比如模型搜索的算法等,再把通用的模块部分地固化在芯片里面,极大地提升视频处理的效率。

所以在视频云市场,人们总是在做权衡,云芯片厂商要处理好芯片能效和通用性的关系,云服务商要在算力有限的情况下使用很多快速算法。而正如阿里云视频云技术负责人所强调的:“我们的愿景都是一样的,就是让视频普惠各行各业,再反哺视频行业,实现更茁壮的发展。”


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK