![](/style/images/good.png)
![](/style/images/bad.png)
干货分享 | B站SLO由失败转成功,B站SRE做对了什么?
source link: https://studygolang.com/articles/35973?fr=sidebar
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
干货分享 | B站SLO由失败转成功,B站SRE做对了什么?
EASYOPS_youwei · 大约3小时之前 · 88 次点击 · 预计阅读时间 1 分钟 · 大约8小时之前 开始浏览最近几年,Google SRE在国内非常流行。
Google SRE方法论中提出了SLO是SRE实践的核心,SLO为服务可靠性设定了一个目标级别,它是量化线上质量的关键因素,它是用来回答一个服务到底“什么时候叫做挂了”的根本依据,也是可量化可统计的依据所在。
在大多数IT和运营部门中,可观测性是一个不断发展的技术领域。为了更好地发布稳定的软件系统,企业需要持续了解性能、正常运行时间和可用性等指标。因此,工程师正在全面增加对SLO的使用,用SLO来衡量系统的质量。一项研究发现,82%的企业正在增加对SLO的使用。
中国年轻世代高度聚集的文化社区和视频网站平台,B站也引入了SLO,并将SLO用作一个稳定性保障手段,帮服务观测线上隐患,保障服务在线上环境的可用率。
本期「UGeek大咖说-大厂可观测」邀请到B站在线SRE负责人武安闯做客直播间,为大家带来《以SLO为核心的可用性观测与质量运营》的分享,将以SRE中的SLO工程为核心,探讨如何抽丝剥茧度量服务的可用性?如何开展报警治理?如何第一时间发现线上问题?
直播预约
嘉宾介绍
武安闯
-哔哩哔哩 / 基础架构部 / 在线SRE负责人-
- 先后负责中间件运维、在线业务保障和SRE稳定性工程
- 从0到1带领运维到SRE转型,建设B站稳定性体系
- 主导建设SRE转型、SLO工程、容量管理体系、高可用架构、多活容灾等专项
- 当前专注SRE稳定性体系规划建设和落地实践
直播主题
《以SLO为核心的可用性观测与质量运营》⤵
微服务系统中采集和配置了丰富的指标、报警,海量的观测指标和报警又让大家无法及时发现线上问题。如何抽丝剥茧度量服务的可用性,如何开展报警治理,如何第一时间发现线上问题,本次分享将以SRE中的SLO工程为核心来探讨一下服务的可用性观测、报警治理与质量运营。
直播时间
2022年11月24日20:00-21:00
直播亮点
分享Google SRE中最核心的SLO工程方法论和落地实践!
观众收益
- 了解可用性指标的观测对象、观测方案和落地实践
- 了解Google SRE中最核心的SLO工程方法论及SLO实施经验
- 了解如何从SLO出发来做报警治理与质量运营
有疑问加站长微信联系(非本文作者)
![280](https://static.golangjob.cn/static/img/footer.png?imageView2/2/w/280)
Recommend
-
18
SLO和SLA是大家常见的两个名词:服务等级目标和服务等级协议。云计算时代,各大云服务提供商都发布有自己服务的SLA条款,比如Amazon的EC2和S3服务都有相应的SLA条款。这些大公司的SLA看上去如此的高达上,一般是怎么定义出来的呢?本文...
-
6
0:00 / 11:00 ...
-
3
Site Reliability Engineering (SRE) practice was established by Google nearly 20 years ago, and was popularized with Google’s monumental SRE Book. Everyone’s been attempting...
-
4
IT Asset Management
-
1
Example Domain This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.
-
6
This is a complete guide to Kubernetes API Server SLO Alerts. In this new guide, you’ll learn: Kubernetes official Service Level Objectives (SLOs).What are Error Budgets?How to turn Error Budgets into alerts?
-
5
最近几年,Google SRE在国内非常流行。Google SRE方法论中提出了SLO是SRE实践的核心,SLO为服务可靠性设定了一个目标级别,它是可靠性决策的关键因素。那如何选择和计算SLI,如何设置SLO,如何实践落地呢?本文就来讲讲B站SRE在实践SLO时所走的弯路和总结的经验。
-
3
POSTED ON AUGUST 29, 2022 TO Data Center Engineering,
-
4
B站:以SLO为核心的可用性观测与质量运营 EASYOPS_youwei · 5天之...
-
11
如何配置 SLO 无论是对外提供 IaaS PaaS SaaS 的云...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK