云存储服务商Backblaze发现,其硬盘驱动器故障率在2025年第二季度有所下降,此前高故障率的驱动器故障频率明显减少。
该公司硬盘统计团队(Stephanie Doyle和Pat Patterson)表示,12TB希捷型号ST12000NM0007"上季度故障率高达9.47%,本季度降至仅3.58%"。该型号在2024年最后一个季度的故障率为9.72%。"其他显著下降的包括12TB HGST型号HUH721212ALN604(第一季度:4.97%;第二季度:3.39%)和14TB希捷型号ST14000NM0138(第一季度:6.82%,第二季度:4.37%)。"
两款希捷驱动器ST8000NM000A(8TB)和ST16000NM002J(16TB)在本季度零故障,其中8TB驱动器已连续三个季度零故障。
硬盘驱动器的终身故障率与上季度的1.31%整体故障率相比变化不大。
随着Backblaze采购更新更大容量的驱动器,其硬盘存储中的小容量驱动器正在老化。该公司拥有10款12TB或更低容量的硬盘产品,平均故障率为1.42%。公司指出:"这个年化故障率得益于一些表现良好的低故障率产品,包括两款4TB希捷型号(0.57%和0.40%)、12TB HGST型号HUH721212ALE600(0.56%)和12TB希捷型号ST12000NM001G(0.99%)。"
在容量规模的另一端,该公司拥有三款20TB或更大容量的drives:20TB东芝型号MG10ACA20TE、22TB西数型号WUH722222ALE6L4和24TB希捷型号ST24000NM002H。
公司指出,"无论从驱动器数量还是在存储池中的时间长度来看,现在为希捷和东芝型号创建明确趋势还为时过早……特别是希捷可能处于'浴缸'曲线的开始阶段,我们可能会看到它随时间变化。
另一方面,22TB西数型号的表现远低于我们当前所有尺寸和年龄驱动器池的平均年化故障率,而且它是拥有最多数据的型号。"
随后,该公司将20TB+驱动器随时间的整体故障率与14-16TB驱动器在相同时间段的故障率进行了比较。
存在显著差异,Backblaze表示:"从驱动器年龄对比来看,我们的20TB驱动器似乎正好达到目标,甚至可能比预期表现更好。但这绝对不是完美的比较,因为14-16TB驱动器拥有更稳定和更大的驱动器数量。"
结论是:"从数据中可以清楚看出,我们需要给20TB+驱动器时间成熟,随着我们(当然取决于我们的采购行为)增加更多驱动器,我们可能会在数据中看到一些有趣的变化。"
您可以访问Backblaze的硬盘统计页面查看完整的故障率数据。
评论:考虑到硬盘驱动器的复杂性、机械精密度、微小公差和24×7的活动频率,故障率如此之低确实令人惊叹。它们可能是有史以来大规模生产的最精密的高精度机电设备之一。
Q&A
Q1:Backblaze硬盘故障率在2025年第二季度有什么变化?
A:Backblaze发现其硬盘驱动器故障率在2025年第二季度有所下降。例如,12TB希捷型号ST12000NM0007从上季度的9.47%故障率降至3.58%,其他型号如12TB HGST和14TB希捷也都有显著下降。
Q2:20TB级大容量硬盘表现如何?
A:20TB级驱动器表现良好,特别是22TB西数型号表现远低于平均年化故障率。虽然样本数据还需要更多时间成熟,但从年龄对比来看,20TB驱动器正好达到目标,甚至可能比预期表现更好。
Q3:哪些硬盘型号在本季度实现了零故障?
A:两款希捷驱动器实现了零故障:ST8000NM000A(8TB)和ST16000NM002J(16TB)。其中8TB驱动器已经连续三个季度保持零故障记录,表现尤为突出。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。