就连 Google 也在努力平衡快速但昂贵的闪存与廉价但缓慢的硬盘之间的关系

谷歌透露，尽管闪存存储技术日益普及，但公司大部分存储需求仍依赖传统硬盘。为了提升存储系统性能，谷歌开发了自动化数据分层系统，在保持成本效益的同时显著改善了存储效率。这种平衡快速昂贵闪存和廉价缓慢硬盘的策略，展现了大规模数据中心在存储管理上面临的挑战和创新。

Google 透露，它仍然主要依赖硬盘驱动器来满足其存储需求，但通过自主研发的自动化数据分层系统，显著提升了其存储系统的性能。

这家广告和搜索巨头在周四发布的一篇文章中承认了其对传统机械硬盘的持续偏好，文章详细解释了其 "Colossus" 通用存储平台的运作方式。

Colossus 为 YouTube、Gmail、Google 的云存储服务和其他应用程序提供支持。

文章指出："大多数数据中心只有一个集群，因此只有一个 Colossus 文件系统，无论集群内运行多少工作负载。" 随后补充道："许多 Colossus 文件系统拥有数个 EB (Exabyte) 的存储容量，其中有两个不同的文件系统，每个都超过 10 EB 的存储容量。"

Colossus 运行速度很快。Google 的文章表示，其最大的文件系统定期超过 50 TB/s 的读取吞吐量和 25 TB/s 的写入吞吐量，最繁忙的集群在读写操作合计下可以"提供超过 6 亿次 IOPS"。

Google 上一次公开发布有关 Colossus 的信息是在 2021 年，当时透露该系统"混合使用闪存和磁盘存储"，并将最频繁访问的数据放在闪存磁盘上，"以实现更高效的服务和更低的延迟"。

Colossus 仍然将高需求数据从硬盘 (HDD) 转移到固态硬盘 (SSD)，新文章指出，这样做"在今天更加重要，因为多年来，SSD 变得更加实惠，在我们的数据中心中的重要性不断提升"。

"然而，纯 SSD 存储相比混合 SSD 和 HDD 的存储方案仍然存在显著的成本溢价，" 文章表示。"挑战在于将正确的数据 —— 那些需要最多 I/O 操作或需要最低延迟的数据 —— 放在 SSD 上，同时将大部分数据保留在 HDD 上。"

周四的文章由存储技术主管 Larry Greenfield 和存储软件工程师 Seth Pollen 撰写，他们解释了 Google 用于在固态硬盘（又称闪存存储）和机械硬盘之间移动数据的工具。

两人透露，Google 的内部用户可以强制将文件存储在闪存上，或使用混合方式，将文件的一个副本放在 SSD 上。后者并不理想，因为 Google 用于存放存储设备的服务器并不总是可用，因此 SSD 上的单个文件副本可能无法访问，内部用户将不得不面对 HDD 带来的更高延迟。

因此，关于哪种介质最适合数据的大多数决策都由名为 "L4" 的自动缓存系统做出，Greenfield 和 Pollen 写道，该系统"动态选择最适合 SSD 的数据"。

根据本文的理解，L4 在 SSD 上缓存数据并建立一个索引，列出这些缓存中的数据。

"这意味着当应用程序想要读取某些数据时，它首先咨询 L4 索引服务器。该索引告知客户端数据是否在缓存中，如果在，客户端就从一个或多个 SSD 读取数据，" 两人写道。

如果数据不在缓存中，L4 会从 HDD 读取数据并将其移动到使用 SSD 的服务器。

"L4 可以更积极或更保守地决定在 SSD 上放置多少数据，" 这两位存储技术专家写道。"我们使用机器学习 (ML) 驱动的算法为每个工作负载在不同策略之间做出选择：在数据写入时插入 L4 缓存，在第一次读取后插入，或仅在短时间内第二次读取后插入。"

Google 在 2022 年的 USENIX 会议上详细介绍了这些技术。

性能提升，但问题仍存

Greenfield 和 Pollen 的文章表示，L4 的缓存技术"对经常读取相同数据的应用程序效果很好，显著提高了我们的 IOPS 和吞吐量。"

他们也承认它有"一个主要缺点"，因为 Google 仍然将新数据写入 HDD。

"事实证明，还有其他重要类型的数据，L4 读取缓存在节省资源方面并不如我们希望的那样有效，即那些快速写入、读取和删除的数据（例如大型批处理作业的中间结果），以及数据库事务日志和其他经常进行小型追加操作的文件。"

这类工作负载不太适合 HDD，两人认为"最好直接写入 SSD，完全跳过 HDD。"

这些信号推动了新 SSD 硬件的采购，并为规划人员提供了最大化效率的方法

L4 还为新文件自动化数据放置，因为应用程序尚未使用这些文件，所以无法假设它们需要提升到配备 SSD 的缓存中。

因此，当应用程序创建新文件时，它们会共享文件类型等信息，或存储在文件中的数据库列的元数据。

"L4 使用这些特征将文件分类为'类别'，并随时间观察每个类别的 I/O 模式，" Greenfield 和 Pollen 写道。"这些 I/O 模式驱动不同放置策略的在线模拟，如'放置在 SSD 一小时'、'放置在 SSD 两小时'或'不放置在 SSD'。基于这种模拟，L4 为每个类别选择最佳策略。"

这些情况还"预测如果有更多或更少的 SSD 容量可用时，L4 会选择什么样的放置策略。"

"因此，我们可以预测不同数量的 SSD 可以从 HDD 卸载多少 I/O。这些信号推动新 SSD 硬件的采购，并为规划人员提供在应用程序之间转移 SSD 容量以最大化效率的方法，" 两人写道。

Google 并不是唯一在努力寻找最佳方式混合使用 SSD 和 HDD 的公司：存储硬件供应商以做好这一点为荣，但他们不需要在 EB 级规模上运营。

因此，如果您参加在拉斯维加斯举行的 Google Cloud Next 会议，他们和您都可能从 Google 在 4 月份披露的更多存储系统信息中受益。Greenfield 和 Pollen 建议查看标题为"Google Cloud 存储的新特性"和"AI 超级计算机：掌控您的存储基础设施"的会议。

来源：The Register

0赞

好文章，需要你的鼓励

就连 Google 也在努力平衡快速但昂贵的闪存与廉价但缓慢的硬盘之间的关系

来源：The Register

2025

03/28

09:51

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

超越黑盒：重新思考数据中心的可持续发展

Google 推出搜索、地图和 Gemini 新版度假规划功能

Nvidia 新推出的工具让本地 AI 计算变得轻而易举

Google 推出 Gemini 2.5 Pro，突破 AI 推理能力边界

Google Gemini 2.5 成为最新对标 DeepSeek R1 的模型

人工智能助力 Earth AI 在被忽视区域发现关键矿产

应对 AI 驱动的关键基础设施攻击:韧性是关键

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: