7

腾讯游戏:基于实际场景的 AIOps 运营实践

 3 years ago
source link: http://www.greatops.net/?id=243
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
每当谈到运维的发展前景大家总会提到运维危机论、运维未来,诸如此类的问题。腾讯游戏的运维团队也在思考。本文将聚焦在游戏领域与大家分享下我们的思考,以及构建和运营智能化运维系统的一些经验。

涂彦
腾讯游戏运维总监,T4专家,负责游戏业务运维服务以及管理工作。从事网络游戏运维十年以上,是腾讯游戏运维智能化、服务化、产品化的坚定实践者,关注互联网行业运维标准建设、海量业务运维增值服务等工作。

分享主题:边界还是终点?运维还是运营?

腾讯游戏运维的发展

腾讯游戏运维经过十年的发展,从最初的脚本时代到作业时代,发展到场景自动化时代,到现在的智能化时代,目前遇到了新的机遇和挑战。

  • 游戏行业:AI技术开放、云化应用加速

  • 游戏运营:数据化运营向运营数据的转变

  • 游戏玩家:全生命周期的持续关注与改善

腾讯游戏运维的发展可以看成行业发展的一个缩影,越来越多新的技术和概念的提出给运维提供了更多的发展方向。腾讯游戏运维服务分为两个部分:

  1. 为所有的玩家服务

  2. 为产品运营与开发管理

无论服务对象是谁,数据化运维工作都势在必行。

  • 第一,运维工作需要数据辅助。通过搭建工具系统,对运维数据运营化已经成为一个基本的需求。

  • 第二,运维工作正在从数据化运营向运营数据转变。这种变化的出现,是基于对数据采集能力与数据决策能力信任的不断加深 ,通过这些数据直接对方案进行决策。从这里可以看出,运营数据和数据化运营是量变到质变的过程。

  • 第三,运维工作正逐渐从后台走向前台。根据行业最新数据,国内用户月均游戏时间约为900分钟。用户在游戏停留的时间将推动运维数据化的实时服务不断进化。

大数据与实时服务仅仅依靠现有运维能力是不够的,所以AIOPS来的正是时候。腾讯游戏运维经历的第一次转型,使团队里约6-7成运维具备DevOps能。可以基于蓝鲸平台去开发工具。第二次转型就是AIOPS,目标是2-3成团队成员具备该能力。智能化运维团队在分工中更多承现出不同的能力:场景规划、落地执行、算法形成、数据清洗、挖掘以及仿真。

运维的交付是什么?AIOps的交付是什么?下面会通过一个案例来谈到怎样形成这个智能运维系统的一个设计的理念。

上图是去年“超级碗”决赛,160架无人机在空中组成的图案。这个无人机系统和我们做智能系统实际上很类似。首先,无人机由动力装置、电机、螺旋桨,传感器,摄像头组成。像运维的工具一样,后面肯定有一套云控的系统操作所有的无人机,控制他们去协同进行工作。

通过这个例子引出我们对于AIOps的思考,一架无人机无法创造出这样复杂的图案,运维场景也是一样,运维开发很多工具来解决复杂场景的问题,单个工具能解决复杂场景吗?可能也可以解决。但是,你会发现,当单个工具做的越重,未来这个工具的迁移与维护成本都可能会很高。所以我们需要的不是一个工具,而是工具集或者工具云化。通过工具之间更好的协同和调度来解决复杂场景的问题。

腾讯游戏用户在游戏中的停留时间往往会构成很多复杂的体验场景。运维大数据与实时服务,通过这些场景化有可能产生有价值的服务。

用户体验管理三要素

讲到了用户体验的系统,不知道大家对用户体验有多少理解?站在腾讯游戏角度,谈一下我们对于用户体验管理的理解。

通过无人机的例子可以看出,AIOps的交付需要构建一个交付系统,有工具,也要有对应的智能系统。所以,我们在进行智能系统设计的时候要遵循三个要素。

  • 要素一,采集能力。我们是否具备全链路都能采集到数据的能力,这决定了未来是否能做出正确的决策。采集能力,其中包括了采集、清洗、分析、管理复杂数据的能力。

  • 要素二,需要有场景开发、场景创新、场景分析的能力。有了这么多数据,能把这些数据变成什么东西呢?所以解决方案出现的前提是场景定位和用户画像的分析能力。

  • 要素三,构建整个工具体系。我们构建了很多工具,不同的工具把这个场景汇聚在一起,从而实现自动化。在这当中有一些具备智能元素,有一些不具备智能元素。不是所有问题都需要用智能化来解决,杀鸡用牛刀的案例身边太多了。

三要素建立之后,把用户端和智能系统做了连接,通过采集数据、场景定位、工具集的建设之后,形成了智能系统,“蓝鲸”作为整个智能系统的“基石”,运维在上面构建解决方案。所以构建工具,就是为用户服务的。

有了数据采集,也要有数据管理来把数据标准化。对游戏来说,把数据在用户体验层面上分成了六大类,分别是游戏性能、版本属性、硬件属性、关键路径、故障探测和网络延迟。这六类数据非常多,所以我们的智能运维团队会基于这些运维设计和规划去提供很好的数据服务。运维把这些数据的用途规划好之后,就可以更好的加以利用。

闭环处理-云控

大家都遇到过域名劫持的问题。域名劫持问题怎么解决?用户投诉,打电话给客服,发现用户的Local DNS已经被运营商篡改了,联系运营商,大家交涉一番,把DNS改回来,但是过一段时间又被改了,需要反复的沟通解决这个域名劫持的问题,耗费大量的人力。

通过智能运维,采集整个域名劫持服务场景的数据。将数据进行清洗,实时计算入库,通过网络优化智能系统进行云端策略的优化和下发,再通过用户体验管理智能系统进行分析,最终把这个更新策略实时下发给用户,从而完成整个闭环处理。

智能监控&事件

通过对域名劫持案例中的数据进行分析和提取,我们得到这些故障的特征,完善事件案例库。随着案例库的完善,我们觉得可以构建智能告警系统,叫做AI智能监控。让我们的监控系统具备自我学习的能力。

整个监控系统中,红色部分是我们的核心部分,每天会有大量的异常数据,体验数据进来,通过多维度的AI监控,历史告警特征库的不断更新,机器学习完善我们的异常时间库。最终把一部分的异常通过告警转成事件,运用到运维的闭环服务。

在智能监控中,我们做了这样几件事情:

  • 一,我们的用户体验智能系统可以根据波动、曲线自动识别异常事件。一个异常转告警之后,进行关联分析,但并不针对业务本身,还有六个维度的数据,我们在内部打通,通过数据的接口方式进行调用,大家可以拿到这些数据做更多的关联分析。

  • 二,一个问题分析,不可能第一层就解决,所以我们通过第二层多维关联分析,进一步聚焦到具体的问题。这些图表通过智能系统的配置之后,自动会帮你把所有数据分析的结果全部列出来。

  • 三,自动跟踪。通过自动的校验、恢复、结果的跟踪,完成整个告警事件闭环的处理。

整个智能监控,覆盖多个场景,如网络延迟、游戏卡顿、在线曲线、版本质量、游戏关键路径等,随着这些场景逐步完善,实现对基础运维工作智能化的一个建设过程。

回到主题:边界还是终点?运维还是运营?从上文中可以看到,传统运维不能解决的问题被智能运维解决了,我们认为这是运维边界的一次突破。我们知道,运维是成本中心,运维有没有机会转变成一个增值服务中心呢?我们认为运维会有一个二次突破的机会。

首先,初期的腾讯游戏运维,更多聚焦在业务的稳定性、安全、成本、效率;转型成开发运维,需要对大量数据进行分析,更多的聚焦在业务的维度上。而AIOps时期,我们更多聚焦的是用户的主动运营,用户的数据和场景、体验的优化、用户的转化、经济系统的预测以及用户内容的精准传达上。也就是说,传统运维到开发运维再到智能运维,经历了关注业务、关注设备、关注用户的三个阶段。

在思考运维到运营转型过程中有一点非常重要,如何用运维的基础能力提升商业价值。从运维角度来讲,从运维角度来讲, AIOps是使用运维技术能力提升商业价值的重要因素。通过数据形成有效场景,从而寻找商业价值的驱动力。这里讲的商业价值包括用户口碑、活跃度、舆情的评论及经济系统等。在互联网行业里,商业价值可以是一个比较宽泛的概念,有些是直接的,有些是间接的。产品发展过程中,商业价值是在不断变化的,在这个过程中只要用心就可以捕捉到好的机会。

从优化游戏进入时长和提升用户转化体验中我们分析用户的应用场景。把用户的游戏体验生命周期分为三个阶段:

  • 第一阶段,能来玩,(新进COME)。

  • 第二阶段,可以玩(活跃PLAY)。

  • 第三阶段,喜欢玩PLAY(在线时长,活跃STAY)。

但是这三个节点,并不能形成场景,所以要进一步对场景进行定位。在这些场景里面,第一类是大家都希望看到的,但是实际上有三类是不在我们的控制范围内的,

第一,用户进来玩又离开了。
第二,进来玩了,又走了,过一段时间又进来玩了,又走了。
第三,用户进来玩了,也付费了,但是觉得不值得玩,又走了。

这三个场景感觉跟运维没关系,但是实际上整个环节还是有些东西是可以做的。

把关键路径细分,在游戏的登录环节,可以分为七个步骤。

  1. 市场曝光率,也就是用户看到这个新闻或宣传,它的考量指标是曝光率和点击率;

  2. 下载渠道,更关注下载的折损率和平均的时长;

  3. 更新,进了游戏之后,需要更新,如果碰到很大的包,用户可能更新到一半就放弃了;所以,这里需要关注折损率和平均登录时长,

  4. 登录的时长;

  5. 进入游戏房间,开启房间率;

  6. 核心的副本,支付的行为率和平均购买的时长;

  7. 退出登录。

通过关键路径分析,有两个点可以改善。

  • 第一,玩家的转化率,从第一步到第六步,假设只有50%-60%的用户进入到游戏。

  • 第二,平均进入游戏的耗时,包括从登录,下载,更新,进入房间的一些过程。

基于这两点服务场景,我们设计了一些识别工具,

一,用户标签的识别工具。
二,提速工具。
三,礼包的工具。

用户标签的识别工具。首先需要沉淀大量用户体验和游戏内容的数据,通过分析数据把用户的类型分成登陆中,游戏中,加载中,这几个状态。然后,通过用户体验智能系统对对这几类用户群体打标签。如果发现用户体验损耗,就会进行实时的干预。所以,我们做的是用户的类型的标签提取和用户行为标签提取的过程。

有了识别工具后,就可以做提速工具了。根据获得的标签,分析用户体验的实时数据进行实时干预。通过体验管理智能系统将用户进行聚合,然后通过策略下发,对用户群体匹配策略应用,这里不是指单个应用,单个用户,而是用户群体。

第三个工具,礼包的工具。它是一个高效提升玩家转化率的工具。我们有用户标签,然后通过智能投放下发礼包,帮助玩家更好完成下载与更新。

礼包工具的算法实际上经历了三个迭代过程:

  • 第一次迭代,我们使用的是实时下载数据。通过实时数据的统计,我们发现传统的算法里面,礼包领取率是非常低的,从进度一到进度三,最终完成进度三礼包领取的人只有19%。

  • 第二次迭代,通过优化算法,通过分析用户的实时下载数据和历史下载数据之后,礼包的投放成功率提高了近一倍,到了40%。

  • 第三次迭代,我们利用了用户的标签,以及机器学习的算法,把精准礼包的投放提升到70%。通过不断的迭代,礼包的精准投放大幅增长。

总的来说,我们的目标是让更多用户在进入游戏过程中获得更好的体验。运维在下载安装、更新登录这两个环节里面,提供了礼包工具,提供了用户标签,提供了智能提速,在版本里面,提供了分级提速,跨版本更新,所以,我们会通过AIOps帮助更多用户进入到游戏里面来,这是从运维到运营思考的一种很好的尝试。

商业价值链的顶端,是经济系统,运维在经济系统里面能做什么?我觉得也是有事情可以做的。运维的2B服务界面面向产品与开发,产品团队需要很多工具去管理每个游戏的经济系统,不能让这些经济系统崩溃,要实时进行管理。原来的模式更多是通过离线的经济分析数据进行管理,现在我们帮它实时用AIOPS来服务。通过辅以预测算法的工具使销售目标与道具定价的安全稳定可控。我们认为这是技术运营尝试和探索的新场景。

腾讯游戏运维正朝着AIOPS的愿景而努力:

  • 第一,自动化。任何一个被运维发现的场景,都可以用工具来处理。

  • 第二,数据化。任何一个点的数据都是可以被采集。

  • 第三,智能化。任何一条有价值的数据,都是可以得以利用。

腾讯游戏基于蓝鲸平台构建的智能运维系统帮助运维团队不断提升价值与视野,拥有AIOPS的游戏运营技术团队将在未来提供更具想象力的服务。

蓝鲸简介

腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化运维平台。目前已经推出社区版、企业版、公有云版,欢迎体验。

如有需要请联系蓝鲸客服QQ:800802001,有关蓝鲸搭建布署以及使用方面的疑问,可加入QQ群(495299374)讨论交流。 



您可能比较感兴趣

蓝鲸智云招募合作伙伴

合作共赢,是腾讯文化中重要的一部分。蓝鲸智云团队计划在全国范围内,大力发展生态体系,寻找优质的合作伙伴,共创运维领域的新局面。我们希望为解决方案供应商、集成商、服务商、应用软件开发商、咨询机构等提供更多的增值服务。

招募详情,请点击“访问蓝鲸官网”。http://bk.tencent.com/

近期好文:

民生银行:我们的 ELK 日志分析平台

腾讯业务监控的修炼之路

运维不迷茫,腾讯运维工程师转型升级之路

逼格高又实用的 Linux 高级命令,开发运维都要懂

认识运维工作不能犯的8个错误

更深度,更全面,更实用的运维大会

GOPS 2017上海站 即将开始

腾讯游戏 运维总监 / GOPS 金牌讲师涂彦老师将带来精彩演讲

《从运维到运营, 腾讯游戏智能运维探索新方向》

点击链接进活动官网抢惊喜折扣票(GOPS全球运维大会·2017上海站


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK