5

【故障公告】多年的故障老朋友又来了:数据库服务器 CPU 100%

 1 year ago
source link: https://www.cnblogs.com/cmt/p/17642411.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【故障公告】多年的故障老朋友又来了:数据库服务器 CPU 100%

数据库服务器 CPU 100% 问题几乎每年都要来几次,从来都不事先打一声招呼,今年的第2次在我们正忙着会员救园的时候来了。

今天 13:35 首先收到我们自己的异常告警通知:

Execution Timeout Expired. The timeout period elapsed prior to completion of the operation or the server is not responding.

这时从博客后台看,操作的响应速度比较慢,但可以完成操作。

紧接着 13:36 收到阿里云的钉钉报警通知:

35695-20230819135710145-2131232709.png
35695-20230819135731236-271732923.png

我们知道它又来了,这次我们毫不犹豫,立马登录阿里云 RDS 控制台重启实例,重启时间是 13:37:58

35695-20230819140437145-331950791.png

重启后 13:39 CPU 恢复正常。

35695-20230819141038747-1302768960.png
35695-20230819141300968-1645959450.png

这时才收到阿里云的短信报警通知:

【阿里云】尊敬的 *** 【异常发生】于13:39分,您的 云数据库rds(实例 cnblogsdb)的CPU使用率指标达到100%(CPU使用率)。智能监控服务提醒您:请及时关注您的相关资源是否有容量风险。请登陆阿里云控制台通过站内信查看详情

上次发生时间是 2023-03-26 ,详见 【故障公告】数据库服务器 CPU 近 100% 造成全站故障,雪上加霜难上加难的三月

这次幸好发生在周末下午,而且将故障时间控制在10分钟以内,是那么多年那么多次数据库 CPU 100% 问题中影响最小的一次。

如果您今天访问园子时恰好被这次故障影响,请您谅解。


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK