6

【故障公告】数据库服务器今年第六次 CPU 100% 故障 - 博客园团队

 10 months ago
source link: https://www.cnblogs.com/cmt/p/17822413.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【故障公告】数据库服务器今年第六次 CPU 100% 故障

35695-20231109175421904-1853812204.png

自9月第五次数据库服务器 CPU 100% 故障之后,今天下午又出现数据库服务器 CPU 100% 故障,是今年的第六次。

自从园子2013年搬上阿里云,几乎每年都会遇到数据库服务器 CPU 100% 问题,但今年创造了新记录,一年还未结束,却已遭遇六次,最困难的一年,连故障也过来凑热闹。

今天的故障发生于 14:28~14:50 期间,我们在 14:30 左右发现故障,立即采用故障处理三板斧之第一斧——重启RDS实例,重启后恢复正常,但很快又出现 CPU 100%,紧接着采用故障处理三板斧之第二斧——主备切换,切换完成后恢复正常。

我们租用的阿里云 RDS 规格是 SQL Server 2016 标准版-高可用系列-16核32G,这个 CPU 100% 问题很奇怪,可能是因为一只老鼠坏了一锅汤——参数嗅探问题造成 SQL Server 缓存了性能极差的执行计划,但我们不能确认就是这个原因,可能要等以后自己用阿里云服务器部署 SQL Server 才能验证。

这次故障给大家带来了麻烦,请大家谅解。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK