3

盘点:近年数据中心十大灾难事件

 1 year ago
source link: https://server.51cto.com/article/740629.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

盘点:近年数据中心十大灾难事件

作者:孙伟敬 2022-11-24 18:29:33
IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。
59814fb4912ce0492210073001cb48b3678d9d.jpg

对于数据中心来说,保持业务连续性是首要目标,然而庞大的数据中心面临众多潜在风险,小概率事件也可能带来灾难性后果——机房火灾、服务器长时间宕机、声誉受损,据不完全统计,仅仅2020年以来有十几桩类似大故障发生。

IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。

数据中心灾难预防封面图

数据中心火灾前/后对比

事件一:韩国SK公司数据中心火灾

韩国数据中心火灾

韩国数据中心火灾

2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。

起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。

调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

事件二:湖南电信荷花园大厦起火

2022年9月16日,位于湖南省长沙市芙蓉区的湖南电信大楼发生火灾,数十层楼体燃烧剧烈,消防赶到后将火势扑灭,撤离及时,无人员伤亡。经初步侦察,现场为大厦外立面起火。为防止发生危险,大楼部分设备断电,据中国电信官方及用户反映,部分用户手机语音和短信功能受到影响,截止当晚12时仍未恢复。

长沙电信大火-央视

长沙电信大楼起火-图源央视新闻

长沙电信大楼于2000年建成,建筑地上42层地下2层。大楼内含荷花园电信机房,是湖南最大的主干线接入点之一,此前资料显示,机房具备25G光纤直CHINANET骨干网,总机架数量约1000个。

事发前招标信息显示,该大厦消防设备超期运行,火灾报警系统等存在较大安全隐患。

事件三:谷歌数据中心电气爆炸

当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。

媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。

谷歌证实了这场意外为电力事故,但未披露具体原因。

事件四:英国高温致多个数据中心宕机

2022年夏天,欧洲经历极端高温,当地时间7月16日英国气温达到42℃,位于伦敦的谷歌云和甲骨文数据中心均因气温过高出现故障,导致系统宕机。

甲骨文报告,数据中心的两台制冷系统出现故障,导致数据中心内部气温越来越高,一些系统自动采取保护措施关闭作业,使得一些用户的数据使用出现延迟问题。谷歌同样称数据中心内的冷却系统出现故障,导致了该区域的部分容量故障,导致VM(虚拟机)终止和一小部分客户的机器损耗,同时谷歌关闭了机房内的一些机器,以防进一步损坏。

谷歌表示只有“一小部分用户”受到了影响。

事件五:网易游戏机房大规模服务器宕机

2021年11月3日,多款网易游戏出现无法登录、断连情况。

据《绝对演绎》等游戏官博表示原因系机房过热导致服务器宕机“机房传来报警,温度过高。部分服务器过热宕机。空调重新开机也没有解决问题……”。

事发后约3小时左右,网易游戏各服务器已恢复正常登陆,网易方面并未就此次故障做统一回复。

事件六:Telstra英国数据中心火灾

2021年8月27日,澳洲电信Telstra位于英国首都伦敦的托管数据中心发生火灾并引起宕机。火灾造成一半大楼断电,消防人员表示,虽然只烧毁了三层供应间的一小部分区域,但由于大火使支撑母线的断路器跳闸,工程师们不得不通过发电机恢复电力。

据分析,这次火灾事故很有可能是由于UPS故障引起,事故击穿了温度保障、消防灭火及ups预测性维护、ups预防性维护等多重保障,最终导致火灾。

事件七:汛情致河南多机房断电

2021年7月,河南遭遇极端暴雨天气,多个数据中心受到汛情影响,机房停止服务:

河南移动机房汛情

河南移动机房公告

河南移动枢纽机房断电,无法正常办理移动业务;海腾郑州BGP机房、华中郑州市BGP机房等数据中心因所在区域市电中断超过1、2个小时,机房由柴发带载,附近油站因道路积水暂时无法供油到机房,在出现电力中断前,考虑到用户数据安全,临时中断服务。

西部数码郑州区域、晋江文学城、河南省产权交易中心用户方发布通知,表明服务受机房原因中断。

当时IDC圈收到的照片显示,有位于河南的数据中心出现机房进水情况。

事件八:OVH数据中心火灾

当地时间2021年3月10日,欧洲​​云计算​​巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。

OVH火灾现场

OVH火灾现场

起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。

尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。

事件九:WebNX美国犹他州数据中心起火

2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心着火,导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。

事件十:微软Azure美东数据中心服务中断6小时

2020年3月3日,微软Azure位于美国东部的数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。

微软随后披露,一个冷却系统故障是导致这次停机的原因,发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。

.......

当然,2020年以来,数据中心发生的故障大事远不止以上这些。

例如2020年8月华为云香港机房制冷设备出现异常,导致服务器挂了3个小时;2022年10月,苏州国科数据中心因备用冷塔着火致楼顶着火,但或是影响范围较小,或是如苏州国科数据中心般机房和业务未受影响,因此并未列入。

这里仅盘点故障严重和造成较大影响的事件,供大家了解,以作前车之鉴。

责任编辑:庞桂玉 来源: 中国IDC圈

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK