7

亚马逊解释本周 AWS 宕机事故原因

 2 years ago
source link: https://www.solidot.org/story?sid=69967
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

亚马逊解释本周 AWS 宕机事故原因

WinterIsComing (31822)发表于 2021年12月11日 22时00分 星期六 新浪微博分享 豆瓣分享 来自寻找时间的人
亚马逊解释了本周 AWS US-EAST-1 区宕机事故的原因。亚马逊称,绝大部分 AWS 服务和所有客户应用都在其主网络内运行,但它还用一个内部网络托管了基础性的服务,包括监视、内部 DNS 服务等。鉴于其重要性,AWS 用了多个地理位置上隔离的网络设备连接到这个内部网络,大幅扩展网络容量,确保其高可用性。12 月 7 日 7:30 AM PST,主网络的一个自动容量扩展活动意外引发了内部网络客户端的活动,导致了连接激增,连接内部网络和主网络的网络设备出现拥堵,通信延迟,引发了持续的拥堵和性能问题,影响到了团队实时监控的能力,使得他们难以快速识别问题的根源,只能依靠日志判断发生了什么。亚马逊表示它采取了行动确保相同的问题不会再次发生。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK