/ 中存储网

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

2024-02-18 00:18:38 来源:中存储

截至 2023 年 12 月 31 日,Backblaze 管理着 274,622 个驱动器。其中,有 4,400 个启动驱动器和 270,222 个数据驱动器。本报告将重点介绍我们的数据驱动器。我们将回顾 2023 年的硬盘故障率,将这些故障率与往年进行比较,并展示截至 2023 年底我们数据中心中所有活跃的硬盘型号的生命周期故障统计数据。在此过程中,我们分享了我们对所提供数据的观察和见解,并一如既往地期待您在帖子末尾的评论部分做同样的事情。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

2023 年硬盘故障率

截至 2023 年底,Backblaze 正在监控 270,222 个用于存储数据的硬盘。在评估中,我们从考虑中删除了 466 个驱动器,稍后将讨论这些驱动器。这样一来,我们就剩下了 269,756 个硬盘,涵盖 35 种硬盘型号,可供本报告分析。下表显示了此驱动器集合的 2023 年年化故障率 (AFR)。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

注释和意见

年度:2023 年,只有一种硬盘型号出现零故障,即 8TB 希捷(型号:ST8000NM000A)。事实上,自 2022 年第 3 季度开始部署该驱动器模型以来,该驱动器模型在我们的环境中的故障为零。这个“零”确实有一些警告:我们只有 204 个驱动器在服务,并且驱动器的驱动器天数有限(52,876 天),但 18 个月内的零故障是一个不错的开始。

本年度故障:2023 年有 4,189 个驱动器出现故障。粗略计算一下,在过去一年中,我们平均每两小时五分钟更换一次故障驱动器。如果我们将工作时间限制为每周 40 小时,那么我们每 30 分钟更换一次故障驱动器。

更多驱动器型号:2023 年,我们在列表中添加了 6 种驱动型号,同时停用了零,总共有 35 种不同的型号正在跟踪。

其中两款车型在我们的环境中已经存在了一段时间,但最终在 2023 年底达到 60 个驱动器的生产量。

  1. Toshiba 8TB,型号 HDWF180:60 个驱动器。
  2. 希捷 18TB,型号 ST18000NM000J:60 个驱动器。

其中四款型号是我们生产环境中的新型号,到 2023 年底将有 60 个或更多驱动器投入生产。

  1. 希捷 12TB,型号 ST12000NM000J:195 个驱动器。
  2. 希捷 14TB,型号 ST14000NM000J:77 个驱动器。
  3. Seagate 14TB,型号 ST14000NM0018:66 个驱动器。
  4. WDC 22TB,型号 WUH722222ALE6L4:2,442 个驱动器。

三款希捷型号的硬盘用于更换出现故障的 12TB 和 14TB 硬盘。22TB WDC 硬盘是一种新型号,主要作为两个新的 Backblaze Vault 添加,每个 1,200 个驱动器。

混合和匹配驱动型号

曾经有一段时间,我们购买了给定型号的额外驱动器,以便我们可以用相同的驱动器型号替换故障驱动器。例如,如果我们需要 1,200 个驱动器来购买 Backblaze Vault,我们将购买 1,300 个驱动器来获得 100 个备件。随着时间的推移,我们测试了不同驱动器型号的组合,以确保不会影响吞吐量和性能。这使我们能够根据需要购买硬盘,就像前面提到的希捷硬盘一样。这为我们节省了购买驱动器的成本,只是为了让它们徘徊数月或数年,等待相同的驱动器型号出现故障。

本评论中未包括的驱动器

我们之前指出,在这次审查中,我们从考虑中删除了 466 个驱动器。这些驱动器分为三类。

  • 测试:这些是给定型号的驱动器,我们监控和收集驱动器统计信息数据,但正在被鉴定为生产驱动器。例如,在第四季度,有四个20TB的东芝硬盘正在评估中。
  • 驱动器:这些是在运行时暴露在高温下的驱动器。我们已将它们从本次评测中删除,但将单独关注它们,以了解有关驱动器如何承受热量的更多信息。我们在 2023 年第 3 季度硬盘统计报告中深入探讨了这一主题. 
  • 少于 60 个驱动器:这是我们使用包含 60 个驱动器的单个存储服务器来存储发送给我们的 blob 数据时的遗留问题。今天,我们将相同的 blob 划分到 20 台服务器,即 Backblaze Vault,从而大大提高了数据的持久性。对于 2024 年,我们将审查 60 个驾驶标准,并很可能在给定时间段内用最低驾驶天数取代该标准,以作为审查的一部分。

无论如何,在 2023 年第 4 季度的 Drive Stats 数据中,您将找到这 466 个驱动器以及评测中使用的 269,756 个驱动器的数据。

比较 2021 年、2022 年和 2023 年的驱动器统计数据

下表比较了过去三年每年的AFR。该表仅包括那些在 2023 年驾驶天数超过 200,000 天的驾驶型号。每年的数据仅包括该年年底的运行驱动模型。该表按驱动器大小排序,然后按 AFR 排序。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

注释和意见

缺少什么?:如前所述,一个驱动模型在 2023 年需要 200,000 个驾驶日或更长时间才能上榜。像 22TB WDC 型号这样的硬盘(126,956 个硬盘日)和 8TB 希捷(Seagate)的零故障,但只有 52,876 个硬盘日不符合条件。为什么是200,000?每个季度,我们使用 50,000 个驾驶日作为符合统计相关性的最低数字。这不是一个完美的指标,但它最大限度地减少了有时与具有较低驾驶天数的驱动型号相关的波动性。

2023 年 AFR 上升:2023 年列出的所有驱动器型号的 AFR 为 1.70%。相比之下,2022 年为 1.37%,2021 年为 1.01%。在整个 2023 年,随着驱动车队平均年龄的增加,我们看到 AFR 有所上升。目前有九种平均机龄在六年或以上的驱动型号。这九种型号占生产中驱动器的近 20%。自第二季度以来,我们加快了从旧驱动器型号(通常为 4TB 大小)到新驱动器型号(通常为 16TB 大小)的迁移。该计划将持续到 2024 年及以后。

年化故障率与驱动器大小的关系

现在,让我们深入研究这些数字,看看我们还能学到什么。我们将首先查看过去三年中按驱动器大小划分的季度 AFR。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

首先,10TB驱动器(金线)的AFR明显增加,8TB驱动器(灰线)和12TB驱动器(紫线)也是如此。这些组别在 2023 年第四季度的 AFR 均为 2% 或更高,而 2021 年第二季度的 AFR 约为 1%。另一方面,4TB驱动器(蓝线)的AFR最初上升,在2022年达到顶峰,此后有所下降。其余三种驱动器大小(6TB、14TB 和 16TB)在整个期间都在 1% AFR 左右波动。

缩小后,我们可以按驱动器大小查看每年的 AFR 变化。如果我们比较 2022 年至 2023 年的年度 AFR 结果,我们会得到下表。每年的结果仅基于该年的数据。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

乍一看,4TB驱动器的AFR下降似乎很奇怪。特别是考虑到每个 4TB 驱动器型号的平均年龄都超过 6 年并且越来越老。原因可能与我们在 2023 年专注于从 4TB 驱动器迁移到 16TB 驱动器有关。通常,我们首先迁移最旧的驱动器,即那些在不久的将来更有可能发生故障的驱动器。这种剔除最旧驱动器的过程似乎可以缓解随着驱动器老化而预期的故障率上升。

但是,并非所有驱动器型号都能发挥作用。6TB 希捷硬盘的平均使用年限超过 8.6 年,并且在 2023 年是所有硬盘尺寸组中最低的 AFR,这可能会嘲笑年龄与故障相关的理论,至少在过去一年中是这样。让我们看看这是否适用于我们驱动器的生命周期故障率。

终身硬盘统计

我们评估了 35 种驱动器型号的 269,756 个驱动器,以进行终身 AFR 审查。下表总结了 2013 年 4 月至 2023 年第四季度末的生命周期硬盘统计数据。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

所有驱动器的当前生存期 AFR 为 1.46%。这比去年年底(2022 年第四季度)的 1.39% 有所上升。鉴于 AFR 在 2023 年按季度上升,这是有道理的,如前所述。这也是自 2021 年第一季度 (1.49%) 以来的最高终身 AFR。

上表包含截至 2023 年 12 月 31 日的所有活动驱动器型号。为了整理列表,我们可以删除那些没有足够的数据来统计相关的模型。这并不意味着上面显示的 AFR 不正确,它只是意味着我们希望有更多的数据来对我们列出的故障率有信心。为此,下表仅包括那些在其生命周期内具有 200 万个驾驶天数或更长时间的驱动型号,这为我们提供了 23 个可供查看的驱动型号的可管理列表。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

使用上表,我们可以比较不同驱动器型号的生命周期驱动器故障率。在下面的图表中,我们按制造商对驱动器型号进行分组,然后绘制驱动器型号 AFR 与每个驱动器型号的平均年龄(以月为单位)。每个圆圈的相对大小表示每个队列中的驱动器数。每个制造商图表的水平和垂直比例是相同的。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

注释和意见

驱动器迁移:在选择要迁移的驱动器型号时,我们可以先替换最旧的驱动器型号。在这种情况下,6TB 希捷硬盘。鉴于只有 882 个驱动器(不到一个 Backblaze Vault),对故障率的影响将微乎其微。撇开这一点不谈,图表清楚地表明,我们应该继续迁移我们的 4TB 驱动器,正如我们在最近的帖子中讨论的那样,哪些驱动器驻留在哪些存储服务器中。正如那篇博文所指出的,还有其他因素,例如服务器年龄、服务器大小(45 个驱动器和 60 个驱动器)和服务器故障率,这些因素有助于指导我们的决策。

HGST:下图左侧显示了我们所有 HGST 模型的 AFR 趋势线(二阶多项式)。驱动器故障似乎不会随着年龄的增长而持续增加。右图显示了删除 HGST 4TB 驱动器型号的相同数据。结果更符合我们的预期,即驱动器故障会随着时间的推移而增加。虽然 4TB 驱动器性能出色,但它们似乎不是更新/更大驱动器的 AFR 基准。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

这里没有探讨的另一个潜在因素是,从 8TB 驱动器型号开始,驱动器内部使用了氦气,并且驱动器是密封的。在此之前,它们是风冷的,而不是密封的。那么,在变频器内改用氦气是否会影响HGST变频器的故障分布?这是一个有趣的问题,但根据我们手头的数据,我不确定我们能否回答它——或者它不再重要,因为氦气将继续存在。

希捷:左下方的图表显示了希捷型号的 AFR 趋势线(二阶多项式)。与 HGST 型号一样,驱动器故障似乎不会随着年龄的增长而继续增加。对于右侧的图表,我们删除了车龄超过 7 年(平均车龄)的驱动器型号。

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

2023 年 Backblaze硬盘统计数据报告公布,8TB 希捷0故障

有趣的是,两张图表的趋势线在六年之前基本相同。如果我们试图为8TB和12TB驱动器进行预测,则没有明确的方向。更令人困惑的是,我们删除的三个型号都是消费级驱动器型号,而其余的驱动器型号都是企业级驱动器型号。当企业驱动模型服务到七、八年甚至九年时,这会对故障率产生影响吗?敬请关注。

东芝和WDC:至于东芝和WDC的驱动模型,有三年多一点的数据,没有出现明显的模式。迄今为止,这些制造商的所有驱动器都表现良好。

驱动器故障和驱动器迁移

我们在上面看到的一件事是,驱动器故障预测通常取决于驱动器模型。但我们不会将驱动器型号作为一个组进行迁移,而是将存储服务器或 Backblaze Vault 中的所有驱动器迁移。给定服务器或 Vault 中的驱动器可能不是同一型号。我们如何选择要迁移的服务器和保管库将在以后的文章中介绍,但现在我们只想说驱动器故障并不是一切。