2

阿里云香港节点全面故障给我们的启示 - laofo(公众号scmroad)

 1 year ago
source link: https://www.cnblogs.com/laofo/p/16997480.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

阿里云香港节点全面故障给我们的启示

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。”

在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可用呢。说好的N个9呢?SLA 就是个笑话,服务该挂不还是挂了。虽然经过十几个小时,阿里云香港节点服务恢复了,数据也恢复了,终于可以让各位老板松了口气,估计很多运维的小伙伴已经开始迁移服务或者开始做备份了。

但是并不是每个公司都这么幸运,不知道还有谁记得「前沿数控」这个公司,当初因为所有数据都在云硬盘上,结果因为云硬盘故障,导致公司的所有数据全部丢失,一夜回到解放前,也不知道官司现在结果如何了。

经过阿里云这次大故障,估计很多老板都会考虑可靠性的问题了,尤其是服务和数据的安全。再心大的老板估计也得让人做个服务和数据的冷备份,稍微懂点的得用混合云搞搞,估计再也没人嘲笑那些自建小容器云、自建机房的公司了。

公有云故障和公司内部服务处理方式区别很大

之前一个老板问我说公司内部要不要搞一个StatusPage?我说可以搞,但是优先级不高,等以后有精力有时间了可以搞。公司内部的很多服务会不会出问题,哪里出问题,怎么解,其实很多时候都是有固定答案的,你一回想就能知道哪里可能有问题。很多时候我们并不是缺少一个和用户沟通的渠道,而是我们故障预案都没有,也从来没有演练过。出故障是肯定的,只是不确定什么时候发生而已。先把重要的事,不做就得死的事做了、做好了再考虑其它的。

StatusPage,一句话描述就是:当你的在线业务宕机时,StatusPage 允许你和你的客户进行沟通,告知他们当前服务的状态和问题处理进展。业务正常服务状态下,客户也可以查看当前服务状态是否正常。同时,客户也可以查看这一业务所有历史上的问题发生和处理记录。

公司内部我们有很多的渠道与用户沟通。在公司内部,一般都有系统的用户群,当服务挂了,各种监控告警就会发出来,系统相关人都会注意到,第一时间在群内周知。这个和公有云的服务还是有很大不同的。

再好的预案没演练过也只是预案

就像平时,很多公司都会声称我们的系统有备份能还原。实际上很多时候也只是一个备份、还原「预案」。结果最后真的需要还原的时候发现,要么备份没成功,要么备份成功了但是数据陈旧,要么找到数据了但是无法还原。。。。总之结论就是没法还原。做这行久了,八卦也就有了,我身边血淋淋的案例太多了,此处我想 at 下我全大哥 :)

线上服务故障演练

我们真的需要对线上服务进行故障演练。针对各种故障场景下服务的容错能力、配置合理性、服务健壮性、监控告警实效性、定位与解决问题应急能力等进行演练。发现线上服务的薄弱环节,提升服务的容错性和可恢复性。

别有侥幸心理,踏实干事,一步一个脚印才能让掉坑里的次数少点。

中国云服务走向全球?先把 Status Page 搞定

我们可以信任阿里云的故障处理吗?

阿里云香港节点全面故障给我们的启示

感谢点赞、转载
关注我,了解研发效能发展动向

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK