5

百度智能云可编程网关技术升级,为AI原生云打造10T级高速智能云网络

 2 years ago
source link: https://my.oschina.net/u/4299156/blog/5379965
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

随着数字化转型和智能化升级的加速,更多的企业级应用开始基于多云、混合云、边缘云等新模式构建,比如自动驾驶、车路协同、物联网、电商、视频、游戏等。这些应用对网络提出了更高的要求,尤其是对云网关产生了重大挑战:

  • 面对动辄 T 级别的带宽需求,以及业务流量突发的场景,采用传统 x86集群方案会导致集群规模超大,容易出现扩容周期长、集群流量负载不均等问题。

  • 面对边缘节点的机房空间和能耗均有限的问题,统一各类网关设备,减少对机架位的占用,同时降低能耗以符合碳达峰的要求,成为必须解决的难题。

为了更好地应对以上挑战,百度智能云推出了基于可编程硬件的新一代云网关技术方案,并对专线网关、云智能网、边缘计算节点、弹性公网 IP、流日志等产品进行了升级,满足 AI 原生云时代10T 级别的数据流通和管理需求。

百度智能云网关从1.0到3.0的技术演进

最早的网关采用专用硬件实现。随着对灵活性的需求以及 X86能力的提升,网关逐步从专有硬件转变为 X86集群。

在人工智能、大数据应用的普及下,数据流通量级大幅增长,单纯依靠 X86服务器集群已经难以应对成百倍的带宽增长。业界普遍开始采用软件+硬件 Offload 加速的方案。这也是百度智能云网关1.0的技术方案。

多云、混合云、边缘云等新的云计算架构的应用,数据流通量级继续爆发式增长,导致软件+硬件 Offload 加速的方案也难以满足需求,业界开始尝试采用可编程硬件解决问题。

百度智能云基于可编程硬件升级了自己的技术方案,相继推出了网关2.0和3.0技术方案。

其中,网关2.0技术方案,对中心云的相关网络产品进行了全面升级,已经规模化部署上线。网关3.0技术方案,通过引入新的 UNP 架构,将带宽能力升级了一倍,业务表项能力升级了百倍,在边缘云和中心云已逐步开始落地。

cd267397-b650-4914-9739-a1289d7159fd.png

应对客户不同场景需求的产品家族

我们将在下文对应用了百度智能云网关2.0、3.0技术方案的产品进行介绍,包括新特性和典型案例。

d96a3bb4-ed43-4183-95df-39b805cb70cc.png

多云互联场景:专线网关

专线网关是 VPC 打通用户 IDC 或者多云之间实现内网互联的重要产品。为了满足客户对专线的海量带宽和频繁扩容的需求,百度智能云的专线网关通过可编程硬件部分负责处理海量带宽、低时延、有限配置规模场景下的业务流量,对于其他流量不大的场景则全部交由 X86软件网关处理。

>> 客户实践案例

某电商客户采用多云战略,在百度智能云和友商云之间搭建了10T 级带宽的混合云专线。曾经至少需要600台 X86软件网关集群,现在只需要16台可编程硬件网关即可实现多云间的海量资源对大吞吐带宽、超稳低时延的需求。

c2fbdb50-f27d-4ada-99b9-307b9c2e146f.png

跨地域互联场景:云智能网

云智能网 CSN 实现了不同地域 VPC 之间、VPC 与本地数据中心之间的高性能、低延迟的网络互通。客户可以基于云智能网打造企业级云上全球一张网。相比传统的对等连接方式,云智能网的组网更加灵活。通过可编程硬件网关 TGW,云智能网提供高吞吐接入的同时,也提供了灵活的路由策略和网络 QoS 等能力,并且可以利用百度智能云的骨干网实现多 VPC 跨地域互联的智能选路优化。

>> 客户实践案例:

某金融客户通过云智能网 CSN 打通了云中心地域和边缘节点的算力和存储资源,并提供 T 级别的网络吞吐能力,实现了全国范围的业务部署和近源计算。

bdcb3439-7caf-40e8-b5f3-3175ad95bc05.png

流量智能调度场景:弹性公网 IP

弹性公网 IP 为用户提供公网接入服务。通过可编程硬件网关 EGW 可满足超大公网带宽的访问需求,并可以在不同业务需求下灵活调度流量。部分高吞吐的弹性公网 IP 流量直接通过 EGW 设备实现快速路径转发处理,节约大量慢速路径的X86机器,同时缩小故障域、降低时延、减轻服务器间负载不均的问题;通过流量特征识别,EGW 可以将公网流量按指定规则导流到不同的X86软件网关集群,从而实现故障域隔离或专属集群调度,典型场景如异常大象流的治理。

>> 客户实践案例:

某制造业客户计算资源被劫持,对外实施 DDoS 攻击,占用较大网关处理能力导致正常业务丢包。通过弹性公网 IP 的流量特征识别的能力,及时治理了问题流量,避免影响其他用户,最大限度地降低用户损失。

06080fd2-6905-4102-91c3-ece4cf5b90e3.png

10T 级别流量分析场景:流日志

流日志用于记录 VPC 中云服务器、负载均衡、NAT 网关等实例发送和接收的网络流信息,方便用户进行流量分析、可视化、故障诊断以及网络架构优化。百度智能云的公网、专线、跨地域等边界网关在实现了硬件化转发的同时,提升了网络诊断能力,支持流量的全量镜像或者按比例镜像分析,具备流粒度的精细化统计和安全审计功能。

>> 客户实践案例:

某电商客户混合云场景下,流日志满足了数十 T 级别专线,1000万级 IP 地址对的实时流量分析、topN 展示、公网流量来源分地域统计和网络攻击行为审计等业务需求。

6e4bb37d-0295-4379-81b0-3ad2f25664b6.png

超低成本的网关资源整合场景:边缘计算节点

边缘计算节点提供一站式靠近终端用户的弹性计算资源。边缘场景下,云边互联、边边互联需要云网络提供高质量的统一接入和管理服务。百度智能云基于可编程硬件的网关3.0技术方案,打造了 UNP(Universal Networking Platform )平台,实现一套可定制硬件基础平台输出多种产品形态,兼顾软件灵活性和硬件高性能,实现“超高带宽 + 超低延时 + 超大表项”的软硬一体化超融合系统,覆盖公有云 IDC、边缘计算、Local compute cluster 等场景。

UNP 实现控制面容器化部署+转发面可编程硬件加速,同时 CPU 和可扩展 NIC 配合实现密钥协商、IPsec 加解密以及 CPU 配合可编程硬件实现 DDoS 等安全功能,可以敏捷、灵活应对业务快速变化。

>> 客户实践案例:

在百度智能云的边缘计算节点,我们通过引入 UNP 平台,对原本职责不同的众多网关进行整合,使所需网关机器的数量缩减了80%。

f927caf8-91df-424c-a77a-e0a8a0c3a7cc.png

百度智能云网关3.0的核心优势

百度智能云的网关2.0和3.0技术方案,相比1.0,在产品性能、弹性、能耗显著提升:

  • 容量:单集群几百 G 升级为几十 T,集群机器数目反而大幅度下降

  • 时延:30us 降至1us,长尾几乎消失,转发更快速。

  • 丢包率:十万分之一降至数亿分之一,网络更可靠

  • 线速能力:256字节降至150字节,网络更稳定

  • 扩容排期:月级别降至周级别,弹性能力更强

  • 扩容频度:季度级别降至年级别,水位冗余度提升

  • 能耗:单 T 能耗下降90%以上,现在每 T 仅需不到200w 能耗,实现碳减排

虽然可编程硬件的网关技术带来了各项指标的大幅提升,但是相比 X86的几百 GB 的内存,可编程硬件的存储空间缩小为几百 Mb。容器场景下辅助 IP 的大量运用导致系统的表项规模产生了十倍乃至百倍的跃增,此时可编程硬件在表项容量上的紧缺成为了新的问题。

百度智能云运用多种手段,包括架构升级、单机优化、硬件升级等,将有限的存储运用到极致,实现同等硬件条件下部分关键表项容量提升10倍,并具备分集群扩展能力,满足高性能的云原生网络需求。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK