36

阿里云出现大规模宕机,原因系 IO HANG,或将做出赔偿

 5 years ago
source link: https://www.infoq.cn/article/39ZaKJCx9-9ITs8vJw2w?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

事件回溯

据网友爆料,3 月 2 日 23:55 分左右,阿里云疑似出现大规模故障情况,华北相当多互联网公司都炸了,一众 APP 和网站陷入瘫痪,一大波程序员、运营和运维人员都赶去公司加班。晚些时候,阿里云对此作出回应称:华北 2 地域可用区 C 部分 ECS 实例状态异常,导致该区域众多网站和 APP 都无法正常使用,不少公司就此事在微博刊登出回应公告:

i2UBjyq.jpg!web 阿里云方面暂无确切故障原因并尚未给出具体受影响范围,其工程师正在进行紧急排查处理,并表示如果有进展会及时向用户同步:

VzEriie.jpg!web

对此,不少程序员在微博吐槽,一时之间该话题之下哀鸿遍野。有网友怀疑是部分磁盘出现问题,凡是读写故障盘的系统软件或服务程序均会受到影响。

对于此事,某公司市场总监在微博表示,一直以为阿里云是公有云稳定的代名词,但出现这种事件让没有配套私服的中小公司措手不及,如果有完善的备用方案,不至于出现大规模宕机。

FJV77jM.jpg!web

截止发稿时,阿里云方面回应称:服务器等出现 IO HANG,正在处理并将对受影响的客户进行赔偿。

云服务 99.99% 的安全性是否靠谱?

据了解,这不是阿里云第一次出现宕机事故。

2018 年 6 月 27 日 16:21 左右,阿里云也曾出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。

本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

根据笔者统计,仅去年一年,全球主流云计算厂商就曾发生数十起宕机事故,原因更是五花八门,谷歌云曾因自动化失效导致宕机、AWS 曾因数据中心出现硬件问题导致宕机、微软 Azure

爱尔兰数据中心曾因高温和打雷陷入宕机、腾讯云因运营和硬盘故障陷入宕机…

众多安全事故频发,云厂商承诺的 99.99% 的安全可靠性是如何定义的?

不久前,笔者曾就云服务的可靠性一事询问阿里云相关技术专家的看法,他表示,云计算厂商得出 99.99% 可靠性这一数字是经过验证的,通过客户部署反馈,确实故障率在 0.01% 以下。并且,一旦出现故障,云厂商也都有非常完善的容灾方案,目前主流云厂商已经在提供一定程度上的异构灾备能力,比如,阿里云的 3AZ 容灾方案,同城一定距离的地方,用户可以自己搭建跨 DC 方案,技术上能够满足异构容灾需求。如果客户追求极致容灾能力,有可能建设混合云或者采购多家云厂商,架构会带来很大成本压力,但这种选择应该比较少,就好比对安全可靠性要求极高的金融数据库领域,也很少有客户同时选择两种数据库方案。

随着云计算使用量的持续增长,很多企业纷纷开始选择放弃一些控制权,以降低成本。从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 大规模应用谷歌云服务,专注于专有云和 IaaS 的 Cloudera 和 Hortonworks 合并过冬。

单一云平台被企业大规模应用同时,这也意味着一旦出现问题,给企业带来的损失和影响是巨大的,多云再次成为重要讨论话题。

多云架构或许才是未来主流

根据 Gartner 调查,2018 年全球公有云市场整体增长为 21.4%,以亚马逊 AWS、微软 Azure 和阿里云为首的全球云计算“3A”阵营占据超七成市场份额。根据 IDC 数据,在中国市场上,阿里云市场份额相当于第 2 到 9 名的总和。在全球市场,阿里云已超过 Google 和 IBM 的云业务。

据统计,目前 40% 的中国 500 强企业、近一半中国上市公司、80% 中国科技类公司在使用阿里云,其数据中心也在全球范围内增长。可见,国内企业对阿里云的依赖程度有多高,这也让单一云平台的绑定问题受到用户关注。

中国平安运维部负责人曾在接受采访时表示,很多大企业如今都会分散选择云服务商。一般情况下,小型企业受限于资金或人员等因素,可能会将所有服务放在同一云计算平台,但大多数中型企业还是倾向于选择多个厂商。

负责运营的微软 Windows Azure 与 Office 365 公有云服务成功在华落地的中国电信中立的第三方互联网基础设施服务商世纪互联蓝云首席执行官柯文达曾在近期的采访中表示,真正的企业级市场中,用户一定是希望多云,这其中就涉及跨云管理的问题。当企业跨多云运营时,每个地方所需要留的 buffer 就越多,浪费就越多。现在,跨云管理其实是一个热门话题,尤其是中大型企业,当应用分散在很多地方时,控管平台可以很好得提高资源利用率和成本效益。

根据阿里云方面的描述,未来的云计算服务将越来越趋向于标准化,企业可以轻松得在不同平台之间进行数据或者应用迁移,多云管理的门槛将被大大降低。

随着国内云计算领域的逐渐成熟,多云或许会是未来主要的发展趋势,这一点从国外目前的云计算发展变化中便可窥得一二。根据分析公司 Kentik 发布的一份云相关调查报告,目前企业更倾向于同时部署两大云服务,也就是多云配对,多云正在快速发展,可能会逐渐超过混合云部署。国外,目前最常见的云组合是 AWS 和 Azure,但也有客户选择 Google Cloud Platform。根据 Kentik 的调查,97%的受访者表示所在公司使用 AWS,35%的受访者表示也在积极使用 Azure,24% 的受访者同时使用 AWS 和 Google Cloud Platform。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK