4

AIOps领航新实践丨浙江移动:数智化运维转型的探索与实践

 2 years ago
source link: https://dbaplus.cn/index.php?m=content&c=index&a=show&catid=248&id=4391
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AIOps领航新实践丨浙江移动:数智化运维转型的探索与实践

dbaplus社群 2022-04-01 11:37:46

在数字化经济高速发展的背景下,给运营商带来了巨大的蓝海市场,也倒逼运营商加速自身的数字化转型。中国移动率先提出“在2025年实现自智网络L4级高度自治”,目标是构建全生命周期的自动化、智能化能力,实现三零(零等待、零故障、零接触)三自(自配置、自修复、自优化)的用户体验和网络能力。浙江移动在这一路线的牵引下,开展了一系列的创新实践。

一、通信网络智能运维面临多项挑战

通信网络是由无线、传输、IP网、核心网、业务系统等设备组成的庞大网络,随着网络的不断演进,存在新老设备、新老网络形态(2/3/5G)以及多厂家并存等复杂状态;且通信网络面向2C用户体验保障、2B用户的可靠性要求5个9,安全性要求极高。智能运维存在以下几项挑战:


数据标准化低

智能运维赖以应用的告警、日志、性能、资源等数据规格不一,设备提供有效数据的能力参差不齐。

故障样本量不足

通信设备的高可靠性要求,同一类型故障发生的概率极低,AI训练样本数量不足。

试错成本高

通信网络的保障性和可靠性要求,无法忍受由于自动化运维带来的不可控风险,自动化运维不可能一蹴而就。

端到端能力差

传统自动化运维建设依赖设备商提供的设备或网管能力,存在自动化能力分散、单域运维能力参差不齐等问题,无法解决跨域或复杂组网下的故障问题。

网络协同复杂

无线5网(NB、GSM、4G FDD、4G TDD、5G)共存、核心网设备云化带来的设备量徒增及复杂多层关联关系,已无法通过简单的增加人手或凭借专家经验保障网络的安全运行。

二、浙江移动实践方案

为此浙江移动打破传统碎片化式的能力建设现状,充分剖析网络运维的第一性原理,通过拆分、优化、重组,从流程、手段、人员三个方面进行变革,探索了一套基于原力矩阵的故障自愈实践方案。

流程重塑:由“面向人的人工操作流程”转变为“面向机器的自动化流程”

传统的网络运维监控部门统一监控网络故障,故障时通知各专业处理人员,各专业按照指导手册或者个别专家的运维经验进行故障处理,处理过程中往往需要多方沟通且存在个体差异,影响故障处理效率和质量。我们将这种依赖多人参与以及各操作手册指导的流程进行数字化重构,设计出由机器自动感知、分析、决策、处置的故障处理流程,实现网络运维由人工依赖指导手册操作设备,向人监控机器人,机器人操作设备的变革。

图片

系统重构:构建运维能力集和原力矩阵支撑故障自动处理

传统的运维能力内生于场景化的应用和平台中,或存在于运维人员的大脑中,能力较为分散,需要建设一套能串接已有自动化能力、固化人工经验、支撑全流程自动执行的平台。

浙江公司不断探索和实践,建设了一个基于原力矩阵的故障自愈支撑平台:首先将依赖人工处理的故障处理流程拆分成一个一个的运维动作,将单个动作实现自动化,形成运维能力集;再根据故障场景和处理流程,即感知、分析、决策、执行的过程,将运维能力集进行编排重组,形成处理故障端到端流程自动化处理的原力链,多个原力链组成原力矩阵,从而实现故障场景全覆盖。故障时,系统自动匹配原力矩阵及原力链,执行相关自动化处理能力,从而实现网络故障自愈。

图片

“搭积木式”构建运维能力集:本实践解决离散能力和数据的问题,将萃取已有应用和平台中的运维自动化能力、或将运维人员大脑中的规则开发沉淀,实现单个运维能力自动化,并按照规范的格式注入到运维能力集中,形成一个网络运维能力资产库,从而实现运维能力的敏捷沉淀和多场景复用。

AI升级运维能力:局限于通信网络数据规范性、样本数量等问题,AI无法使能故障端到端处理过程,但AI可以升级优化部分运维能力,如基于动态阈值和时序预测的KPI异常监测能力使感知更明显、基于历史真实故障的多维数据关联使故障分析更高效。

自动化能力端到端可编排:从分析、感知、决策、执行环节,拉通各专业数据和能力,任意编排组装运维能力,满足不同故障场景、不同处理过程的需求,并不断累积,从而实现故障场景的全覆盖。

自动化结合人工使能故障全流程:一方面是通信网络高可靠性要求,使得我们使用故障自愈能力时谨小慎微,一方面是由于网络的复杂性,使得很多故障场景无法一次性做到全流程自动化。本实践可暂时通过ChatOps或人工串接的方式实现自动化手段辅助人工处理故障,同时不断的反推、补充断点能力,实现全流程自动化。

自动化敏捷容错:整个端到端过程都是由机器人自动执行,但执行异常或需要人工决策时可自动通知到人,故障流程随时中断执行或由人工接管,极大的保障网络安全性。

人员转型:传统运维人员向数智化人才转变

为适应智能运维要求,浙江公司以价值为向导,推出 “三域六师”数智人才培养体系、SRE转型实践、原力共创等一系列转型指导和实践活动,引导员工数智化转型。我们传统的监控人员、各专业维护人员转变为运维设计师,设计运维场景、运维流程、以及需要的运维能力,转变为编排开发工程师,落地开发运维能力,并编排成运维流程和运维场景,实践流程制度和运维经验的数字化沉淀,从而实现网络运维由“口口相传”式人工运维向数字传承式的智能运维转变。

图片

通过不断的总结和实践,目前浙江移动已累积241个原力矩阵,即覆盖无线、传输等基础网络故障场景,又覆盖移动业务、家庭业务、政企业务等业务故障场景,场景覆盖率达98%。沉淀KPI异常监测、RCA根因智荐、一键业务保活等1236个自动化、智能化运维能力,实现100%故障自动调度、75%故障自动处理。

“道阻且长,行则将至,行而不辍,未来可期”,智能运维是一项复杂的、持续的业务活动,浙江移动将进一步从强化基础网络数据和能力的标准化、推进AI人工智能技术的规模应用、深化数字化转型的组织保障等方面,持续践行网络运维数字化转型,加速迈向高阶自智网络。



图片

竺士杰,浙江移动网管中心副经理。长期致力于浙江移动运维体系建设,在建设新一代网络运营支撑系统、推动自智网络演进、推进网络运维数智化转型等方面有着深刻的理解和丰富的经验。

AIOps系统和工具评估

图片

2021年,中国移动通信集团浙江有限公司率先通过了由中国信通院开展的《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》评估,并在【故障预测模块】、【异常检测模块】、【告警收敛模块】获得全面级评价,代表行业领先水平。

智能化运维(AIOps)能力成熟度模型介绍

《智能化运维AIOps能力成熟度模型》系列标准由中国信息通信研究院牵头,云计算开源产业联盟、BATJ等顶级互联网公司以及各大金融、通信企业共同制定的国内外首个智能运维(AIOps)国际标准,并在国际电信联盟第十三研究组 ITU-T SG13 成功立项!

图片

AIOps系统和工具评估报名

目前,基于《云计算智能化运维(AIOps)能力成熟度模型 第2部分:系统和工具技术要求》的智能运维(AIOps)系统和工具技术要求评估已开放质量、成本、效率部分:【异常检测】、【故障预测】、【告警收敛】、【根因分析】、【故障自愈】、【故障预防】、【容量预测】、【知识库构建】共8个模块的评估。企业可根据自身情况任选一项或多项进行参与。

图片

评估价值收益

自查、自证、以评促改,以评促建。成为国内领先的智能化运维系统和工具平台。

往期评估结果:

dbaplus社群携手中国信通院 驱动行业数字化升级

dbaplus社群作为中国信通院的战略合作伙伴,将共同推动中国信通院“云计算智能化运维(AIOps)能力成熟度模型”系列标准的推广与落地。此外,在《数据安全治理能力评估(DSG)》《分布式系统稳定性保障能力评估》《金融大数据能力模型(DataOps)》《数据管理能力成熟度评估模型(DCMM)》等标准的研制与落地上,dbaplus社群也将持续与中国信通院展开深入合作,携手推动中国企业夯实数字化支撑能力,加速各行业数字化转型。

中国信通院稳定性评测体系报名请联系:

中国信息通信研究院@尚梦宸 

电话:13261081232

邮箱:[email protected]

dbaplus社群@黄老师

电话:13632245594(微信同号)

邮箱:[email protected]

本文部分内容源自:CAICT数字化治理


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK