1

【故障公告】阿里云抢占式实例服务器被释放引发全站故障

 1 year ago
source link: https://www.cnblogs.com/cmt/p/17380570.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【故障公告】阿里云抢占式实例服务器被释放引发全站故障

5月7日23:50-5月8日1:40期间,由于园子自建 k8s 集群所使用的大部分阿里云抢占式实例服务器被同时释放,造成200多个 pod 宕机,引发全站故障,由此给您带来很大的麻烦,请您谅解。

在园子的日常运营成本中云资源费用占了1/3左右,为了节约成本,k8s 集群的 worker node 主要使用阿里云抢占式实例服务器,抢占式实例有随时被释放的风险,如果少部分服务器被释放影响不大,今天遇到的是罕见的大部分服务器被同时释放。

我们会吸取教训,靠节约无法服务好用户,唯有自己变强。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK