1

阿里云+作业帮+小红书:论剑云原生时代的 SRE与智能运维

 2 years ago
source link: https://blog.csdn.net/m0_46700908/article/details/124134301
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

出品 | CSDN云原生

2022年4月12日,CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”如期而至,本期峰会出品人、阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)携手作业帮运维负责人聂安、小红书SRE业务运维组负责人陈鹏、阿里云高级技术专家周宇(屠虎),带来了一场云原生时代里,SRE与智能运维的前瞻观察和实践分享盛宴。 完整版直播回放请戳>>链接观看

下面先简单回顾本期峰会的内容。演讲视频、完整文章将从4月13日起在 CSDN云原生 微信公众号陆续发布,敬请关注。

SRE与智能运维的机遇和挑战

SRE全称Site Reliability Engineer,也就是网站可靠性工程师,其职责主要体现在交付、日常运维、容量管理三个方面。阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)在开场分享中,将其发展归纳为五个阶段:

  • 纯手工:单兵作战,突出个人能力

  • 标准化:文档化、规范化、流程化

  • 平台化:可视化、自动化

  • DevOps:突破组织边界

  • 智能化:云原生、AI

在智能化时代,一方面,SRE团队面临着Everything is code,物理设施逐步被屏蔽,多云资源带来管理复杂性等挑战;另一方面,K8s让Infrastructure as Code成为可能,为SRE的工作带来无限的想象空间。

作业帮的运维转型

作业帮运维负责人聂安在回顾互联网运维发展史、作业帮运维转型和探索历程的基础上,将作业帮的经验总结为五条。

  • 传统运维职责是将工业制成品组装成服务、交付给用户,并维持服务运转;特点是强依附于业务。

  • 云原生时代,公有云大量使用、DevOps真实达成,传统运维的职责不断被外包、转移、替代,出现了领域危机。

  • 运维转型,核心是提升角色认知。运维人,要把自己从依附的运营角色、调整为独立的运维服务提供方,运维即服务OPaS。

  • 作业帮做了一些转型实践,比如CloudOps借助洋葱模型转型为云服务提供商,SRE全力拓展超服务视角。

  • 对于运维来说,平台是服务能力最有力的承接方式,但平台不是唯一方式。组织、规范、流程、平台,一样都不能少。

小红书的跨云多活能力建设

作为一个社交媒体和电子商务平台,小红书被誉为“中国的Instagram”,近年来发展迅猛,已经到了一个比较大的体量,这对其技术架构提出了较大挑战。因此,为了满足业务增长、技术架构迭代、容灾要求等方面的需求,小红书开启了跨云多活能力的建设。

作为小红书SRE业务运维组负责人,陈鹏从多活筹备(服务梳理、可行性验证、技术招标)、多活建设(东西向流量调度改造、南北向流量调度改造、业务改造)、多活治理(预案建设、容量管理、巡检)三个阶段进行了全面分享,并提出多活DB数据同步终极方案:shardmanager。 

阿里云神龙计算平台智能运维体系建设

神龙计算平台是一个百万级客户基础设施稳定性保障平台。阿里云在神龙计算平台基础上构建了一套智能运维平台,实现了数据采集、智能诊断、自动化运维、故障恢复等方面能力。

阿里云高级技术专家、神龙计算平台异常调度平台负责人周宇(屠虎)分享了阿里云是如何设计和建设这套体系,以及如何解决建设过程中遇到的技术难点。

  • 问题和痛点=为什么要做建设这套智能诊断体系。

  • 同类型智能化智能诊断运维产品调研与分析。

  • 智能运维体系设计与实现,包括采集、诊断服务、算法支撑、自动化运维、故障快恢等核心组件设计思路,以及庞大体量背后,研发团队如何解决带来的问题。


聚焦云原生新技术、新实践,帮助开发者群体赢在开发范式转移的新时代。欢迎关注 CSDN云原生 微信公众号~


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK