5

小心!这个 SSD bug 会使服务器成废砖:永久性故障,数据丢失

 2 years ago
source link: https://server.51cto.com/article/713913.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

小心!这个 SSD bug 会使服务器成废砖:永久性故障,数据丢失-51CTO.COM

小心!这个 SSD bug 会使服务器成废砖:永久性故障,数据丢失
2022-07-13 11:06:21
SSD故障发生后,SSD和数据都无法恢复。此外,同时投入使用的SSD很可能几乎同时出现故障。

尽管在2020年已发布了固件修复程序,但西部数据闪迪(SanDisk)的某些SSD硬盘存在的“致命缺陷”还是让用户措手不及。

这个致命缺陷会导致硬盘在运行4万小时后出现永久性故障,数据丢失。最近的受害者似乎是人气超旺的网站Hacker News,该网站在7月8日星期五遭到了持续中断,它归因于磁盘故障。

一台“后备服务器(主服务器发生故障后,我们昨晚切换到了这台服务器)”也发生了故障,迫使该网站从备份恢复正常运行,所幸还有备份

图片

Hacker News网站现恢复正常运行,使用从备份创建的一台新服务器。我们会密切关注。给所有人带来不便深表歉意!

该网站及其他网站上的众多帖子表明,这个故障与臭名昭著的闪迪致命缺陷有关。这个问题早在2019年11月首次浮出了水面,当时HPE警告一系列广泛的自有品牌固态产品将在运行32768小时后出现故障,这家公司当时对这家SSD制造商并没有指名道姓。

这个问题在2020年3月又出现了,当时两大服务器供应商戴尔和HPE警告,如果没有为一批新确定的依赖闪迪SSD的产品修复固件,“将导致硬盘在运行4万小时后出现故障和数据丢失;如果没有容错机制,比如RAID 0,或者甚至在容错RAID模式下,如果出现故障的SSD数量超过逻辑硬盘上的RAID模式的容错机制所支持的数量,则需要从备份恢复数据,”HPE声称。“SSD故障发生后,SSD和数据都无法恢复。此外,同时投入使用的SSD很可能几乎同时出现故障”,HPE当时补充道。(经验丰富的IT团队会致力于使用非连续序列号和不同的存储产品搭建架构,但很难始终确保一切运行正常,而且补丁并不总是及时开发出来。)

据了解,受到影响的是容量从200GB到1.6TB不等的闪迪SSD。而这些硬盘经常出现在一大堆的戴尔和HPE服务器中:这两家公司当时都向用户列出了受影响产品的完整列表。其他OEM厂商可能会受到影响,到时也会提醒客户。

HPE提供了适用于Linux、VMware和Windows的脚本,这些脚本执行SSD硬盘固件检查,查找有无4万小时通电故障问题;戴尔也采取了相应的措施,指出闪迪型号LT0200MO、LT0400MO、LT0800MO、LT1600MO、LT0200WM, LT0400WM、LT0800WM、LT0800RO和LT1600RO是罪魁祸首。更新版更正了日志检查:“断言(Assert)函数有捕捉程序错误的检查,以验证循环缓冲区的索引值。它不是检查最大值为 N,而是检查N-1”,戴尔发布的安全公告称。

闪迪的所有者西部数据当时称:“发现了一个特定系列的临近报废的旧闪迪SAS SSD存在固件问题,主动联系了我们的OEM合作伙伴,并开始与他们合作,以便迅速为他们的客户提供解决方案。针对该问题的固件修复程序可供客户使用。作为我们政策的一部分,我们无法进一步置评。”


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK