39

【故障公告】阿里云 RDS 数据库服务器 CPU 100% 造成全站故障团队

 5 years ago
source link: https://www.cnblogs.com/cmt/p/11461524.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【故障公告】阿里云 RDS 数据库服务器 CPU 100% 造成全站故障

35695-20190904214647370-2084128374.png

github 故障公告链接:https://github.com/cnblogs/coder-service/issues/106

后续故障公告:升级阿里云 RDS SQL Server 实例故障经过

非常非常抱歉,今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器突然出现 CPU 100% 问题,造成全站无法正常访问,由此您带来了很大的麻烦,请您谅解。

故障经过是这样的。19:34 这个时间点本来是一个访问低峰,数据库压力比访问高峰时低很多,但数据库服务器却异想天开、吃饱了撑着地让自己的 CPU 满负荷工作(到现在我们都没想通,难道是服务器晚饭吃多了想帮助消化?)。开始我们以为是某个应用引起的,一个一个应用排查与重启, 但 CPU 不为所动,依然百分百。接着,我们一边向阿里云提交工单求助,一边通过阿里云 RDS 控制台进行主备切换,虽然控制台显示切换成功后,但“实例可用性”中主备库信息无任何变化,实际主备库切换并没有成功,绝招也失灵。请阿里云帮忙手动进行主备切换,但阿里云操作后反馈由于数据库访问压力大,手动也切换不过去,建议我们重启实例。最终,我们决定重启实例,重启实例后一切恢复正常。是的,就是用最笨的方法——重启——解决了问题,在故障期间我们采取的所有措施都是徒劳,让人哭笑不得。

望着今晚被狂风暴雨突袭后一片狼藉的园子,心中说不出的难受和愧疚。真的很抱歉,我们一直在努力建设园子,但今天的故障又告诉我们,没那么容易,我们的努力还不够,我们别无选择,唯有更加努力。

00:22 开始将阿里云 RDS 实例从 SQL Server 2008 R2 升级至 2016

6:20  数据库升级完成

升级后大量数据库查询超时,正在紧急处理中。

9:20 升级后大量 SQL 需要编译,RDS 实例的 CPU 一直居高不下,由于阿里云 RDS 控制台中数据库实例一直处于“主备库切换中”状态中,即使想升级 CPU ,现在也无法进行。

35695-20190905092706353-481169341.png

9:50 从早上 8:50 开始阿里云 DBA 就开始重建备库,“主备库切换中”状态要等备库重建完成才能解除,升级服务器配置也要等备库重建完成。

10:29 备库重建完成,“主备库切换中”状态解除。

10:50 准备升级 RDS 配置,但阿里云升级配置页面的计价出现问题,即使配置保持不变,也要1万多元的费用。

11:05 进行了主备切换。

11:10 主备切换完成后,目前恢复了正常。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK