Google 透露,它仍然主要依赖硬盘驱动器来满足其存储需求,但通过自主研发的自动化数据分层系统,显著提升了其存储系统的性能。
这家广告和搜索巨头在周四发布的一篇文章中承认了其对传统机械硬盘的持续偏好,文章详细解释了其 "Colossus" 通用存储平台的运作方式。
Colossus 为 YouTube、Gmail、Google 的云存储服务和其他应用程序提供支持。
文章指出:"大多数数据中心只有一个集群,因此只有一个 Colossus 文件系统,无论集群内运行多少工作负载。" 随后补充道:"许多 Colossus 文件系统拥有数个 EB (Exabyte) 的存储容量,其中有两个不同的文件系统,每个都超过 10 EB 的存储容量。"
Colossus 运行速度很快。Google 的文章表示,其最大的文件系统定期超过 50 TB/s 的读取吞吐量和 25 TB/s 的写入吞吐量,最繁忙的集群在读写操作合计下可以"提供超过 6 亿次 IOPS"。
Google 上一次公开发布有关 Colossus 的信息是在 2021 年,当时透露该系统"混合使用闪存和磁盘存储",并将最频繁访问的数据放在闪存磁盘上,"以实现更高效的服务和更低的延迟"。
Colossus 仍然将高需求数据从硬盘 (HDD) 转移到固态硬盘 (SSD),新文章指出,这样做"在今天更加重要,因为多年来,SSD 变得更加实惠,在我们的数据中心中的重要性不断提升"。
"然而,纯 SSD 存储相比混合 SSD 和 HDD 的存储方案仍然存在显著的成本溢价," 文章表示。"挑战在于将正确的数据 —— 那些需要最多 I/O 操作或需要最低延迟的数据 —— 放在 SSD 上,同时将大部分数据保留在 HDD 上。"
周四的文章由存储技术主管 Larry Greenfield 和存储软件工程师 Seth Pollen 撰写,他们解释了 Google 用于在固态硬盘(又称闪存存储)和机械硬盘之间移动数据的工具。
两人透露,Google 的内部用户可以强制将文件存储在闪存上,或使用混合方式,将文件的一个副本放在 SSD 上。后者并不理想,因为 Google 用于存放存储设备的服务器并不总是可用,因此 SSD 上的单个文件副本可能无法访问,内部用户将不得不面对 HDD 带来的更高延迟。
因此,关于哪种介质最适合数据的大多数决策都由名为 "L4" 的自动缓存系统做出,Greenfield 和 Pollen 写道,该系统"动态选择最适合 SSD 的数据"。
根据本文的理解,L4 在 SSD 上缓存数据并建立一个索引,列出这些缓存中的数据。
"这意味着当应用程序想要读取某些数据时,它首先咨询 L4 索引服务器。该索引告知客户端数据是否在缓存中,如果在,客户端就从一个或多个 SSD 读取数据," 两人写道。
如果数据不在缓存中,L4 会从 HDD 读取数据并将其移动到使用 SSD 的服务器。
"L4 可以更积极或更保守地决定在 SSD 上放置多少数据," 这两位存储技术专家写道。"我们使用机器学习 (ML) 驱动的算法为每个工作负载在不同策略之间做出选择:在数据写入时插入 L4 缓存,在第一次读取后插入,或仅在短时间内第二次读取后插入。"
Google 在 2022 年的 USENIX 会议上详细介绍了这些技术。
性能提升,但问题仍存
Greenfield 和 Pollen 的文章表示,L4 的缓存技术"对经常读取相同数据的应用程序效果很好,显著提高了我们的 IOPS 和吞吐量。"
他们也承认它有"一个主要缺点",因为 Google 仍然将新数据写入 HDD。
"事实证明,还有其他重要类型的数据,L4 读取缓存在节省资源方面并不如我们希望的那样有效,即那些快速写入、读取和删除的数据(例如大型批处理作业的中间结果),以及数据库事务日志和其他经常进行小型追加操作的文件。"
这类工作负载不太适合 HDD,两人认为"最好直接写入 SSD,完全跳过 HDD。"
这些信号推动了新 SSD 硬件的采购,并为规划人员提供了最大化效率的方法
L4 还为新文件自动化数据放置,因为应用程序尚未使用这些文件,所以无法假设它们需要提升到配备 SSD 的缓存中。
因此,当应用程序创建新文件时,它们会共享文件类型等信息,或存储在文件中的数据库列的元数据。
"L4 使用这些特征将文件分类为'类别',并随时间观察每个类别的 I/O 模式," Greenfield 和 Pollen 写道。"这些 I/O 模式驱动不同放置策略的在线模拟,如'放置在 SSD 一小时'、'放置在 SSD 两小时'或'不放置在 SSD'。基于这种模拟,L4 为每个类别选择最佳策略。"
这些情况还"预测如果有更多或更少的 SSD 容量可用时,L4 会选择什么样的放置策略。"
"因此,我们可以预测不同数量的 SSD 可以从 HDD 卸载多少 I/O。这些信号推动新 SSD 硬件的采购,并为规划人员提供在应用程序之间转移 SSD 容量以最大化效率的方法," 两人写道。
Google 并不是唯一在努力寻找最佳方式混合使用 SSD 和 HDD 的公司:存储硬件供应商以做好这一点为荣,但他们不需要在 EB 级规模上运营。
因此,如果您参加在拉斯维加斯举行的 Google Cloud Next 会议,他们和您都可能从 Google 在 4 月份披露的更多存储系统信息中受益。Greenfield 和 Pollen 建议查看标题为"Google Cloud 存储的新特性"和"AI 超级计算机:掌控您的存储基础设施"的会议。
好文章,需要你的鼓励
生成式AI在电商领域发展迅速,但真正的客户信任来自可靠的购物体验。数据显示近70%的在线购物者会放弃购物车,主要因为结账缓慢、隐藏费用等问题。AI基础设施工具正在解决这些信任危机,通过实时库存监控、动态结账优化和智能物流配送,帮助商家在售前、售中、售后各环节提升可靠性,最终将一次性买家转化为忠实客户。
泰国SCBX金融集团开发的DoTA-RAG系统通过动态路由和混合检索技术,成功解决了大规模知识库检索中速度与准确性难以兼得的难题。系统将1500万文档的搜索空间缩小92%,响应时间从100秒降至35秒,正确性评分提升96%,为企业级智能问答系统提供了实用的技术方案。
存储供应商Qumulo发布多租户架构Stratus,为每个租户提供独立的虚拟环境,通过加密技术和租户专用密钥管理系统实现隔离。该统一文件和对象存储软件支持本地、边缘、数据中心及AWS、Azure等云环境部署。Stratus采用加密隔离技术确保敏感数据安全,同时提供任务关键操作所需的灵活性和效率,帮助联邦和企业客户满足合规要求。
中科院和字节跳动联合开发了VGR视觉锚定推理系统,突破了传统AI只能粗略"看图"的局限。该系统能在推理过程中主动关注图片关键区域,像人类一样仔细观察细节后再得出结论。实验显示VGR在图表理解等任务上性能大幅提升,同时计算效率更高,代表了多模态AI"可视化推理"的重要进展。