Google 透露,它仍然主要依赖硬盘驱动器来满足其存储需求,但通过自主研发的自动化数据分层系统,显著提升了其存储系统的性能。
这家广告和搜索巨头在周四发布的一篇文章中承认了其对传统机械硬盘的持续偏好,文章详细解释了其 "Colossus" 通用存储平台的运作方式。
Colossus 为 YouTube、Gmail、Google 的云存储服务和其他应用程序提供支持。
文章指出:"大多数数据中心只有一个集群,因此只有一个 Colossus 文件系统,无论集群内运行多少工作负载。" 随后补充道:"许多 Colossus 文件系统拥有数个 EB (Exabyte) 的存储容量,其中有两个不同的文件系统,每个都超过 10 EB 的存储容量。"
Colossus 运行速度很快。Google 的文章表示,其最大的文件系统定期超过 50 TB/s 的读取吞吐量和 25 TB/s 的写入吞吐量,最繁忙的集群在读写操作合计下可以"提供超过 6 亿次 IOPS"。
Google 上一次公开发布有关 Colossus 的信息是在 2021 年,当时透露该系统"混合使用闪存和磁盘存储",并将最频繁访问的数据放在闪存磁盘上,"以实现更高效的服务和更低的延迟"。
Colossus 仍然将高需求数据从硬盘 (HDD) 转移到固态硬盘 (SSD),新文章指出,这样做"在今天更加重要,因为多年来,SSD 变得更加实惠,在我们的数据中心中的重要性不断提升"。
"然而,纯 SSD 存储相比混合 SSD 和 HDD 的存储方案仍然存在显著的成本溢价," 文章表示。"挑战在于将正确的数据 —— 那些需要最多 I/O 操作或需要最低延迟的数据 —— 放在 SSD 上,同时将大部分数据保留在 HDD 上。"
周四的文章由存储技术主管 Larry Greenfield 和存储软件工程师 Seth Pollen 撰写,他们解释了 Google 用于在固态硬盘(又称闪存存储)和机械硬盘之间移动数据的工具。
两人透露,Google 的内部用户可以强制将文件存储在闪存上,或使用混合方式,将文件的一个副本放在 SSD 上。后者并不理想,因为 Google 用于存放存储设备的服务器并不总是可用,因此 SSD 上的单个文件副本可能无法访问,内部用户将不得不面对 HDD 带来的更高延迟。
因此,关于哪种介质最适合数据的大多数决策都由名为 "L4" 的自动缓存系统做出,Greenfield 和 Pollen 写道,该系统"动态选择最适合 SSD 的数据"。
根据本文的理解,L4 在 SSD 上缓存数据并建立一个索引,列出这些缓存中的数据。
"这意味着当应用程序想要读取某些数据时,它首先咨询 L4 索引服务器。该索引告知客户端数据是否在缓存中,如果在,客户端就从一个或多个 SSD 读取数据," 两人写道。
如果数据不在缓存中,L4 会从 HDD 读取数据并将其移动到使用 SSD 的服务器。
"L4 可以更积极或更保守地决定在 SSD 上放置多少数据," 这两位存储技术专家写道。"我们使用机器学习 (ML) 驱动的算法为每个工作负载在不同策略之间做出选择:在数据写入时插入 L4 缓存,在第一次读取后插入,或仅在短时间内第二次读取后插入。"
Google 在 2022 年的 USENIX 会议上详细介绍了这些技术。
性能提升,但问题仍存
Greenfield 和 Pollen 的文章表示,L4 的缓存技术"对经常读取相同数据的应用程序效果很好,显著提高了我们的 IOPS 和吞吐量。"
他们也承认它有"一个主要缺点",因为 Google 仍然将新数据写入 HDD。
"事实证明,还有其他重要类型的数据,L4 读取缓存在节省资源方面并不如我们希望的那样有效,即那些快速写入、读取和删除的数据(例如大型批处理作业的中间结果),以及数据库事务日志和其他经常进行小型追加操作的文件。"
这类工作负载不太适合 HDD,两人认为"最好直接写入 SSD,完全跳过 HDD。"
这些信号推动了新 SSD 硬件的采购,并为规划人员提供了最大化效率的方法
L4 还为新文件自动化数据放置,因为应用程序尚未使用这些文件,所以无法假设它们需要提升到配备 SSD 的缓存中。
因此,当应用程序创建新文件时,它们会共享文件类型等信息,或存储在文件中的数据库列的元数据。
"L4 使用这些特征将文件分类为'类别',并随时间观察每个类别的 I/O 模式," Greenfield 和 Pollen 写道。"这些 I/O 模式驱动不同放置策略的在线模拟,如'放置在 SSD 一小时'、'放置在 SSD 两小时'或'不放置在 SSD'。基于这种模拟,L4 为每个类别选择最佳策略。"
这些情况还"预测如果有更多或更少的 SSD 容量可用时,L4 会选择什么样的放置策略。"
"因此,我们可以预测不同数量的 SSD 可以从 HDD 卸载多少 I/O。这些信号推动新 SSD 硬件的采购,并为规划人员提供在应用程序之间转移 SSD 容量以最大化效率的方法," 两人写道。
Google 并不是唯一在努力寻找最佳方式混合使用 SSD 和 HDD 的公司:存储硬件供应商以做好这一点为荣,但他们不需要在 EB 级规模上运营。
因此,如果您参加在拉斯维加斯举行的 Google Cloud Next 会议,他们和您都可能从 Google 在 4 月份披露的更多存储系统信息中受益。Greenfield 和 Pollen 建议查看标题为"Google Cloud 存储的新特性"和"AI 超级计算机:掌控您的存储基础设施"的会议。
好文章,需要你的鼓励
这项由索非亚大学INSAIT和苏黎世联邦理工学院共同完成的研究,揭示了大语言模型在数学定理证明中普遍存在的"迎合性"问题。研究团队构建了BrokenMath基准测试集,包含504道精心设计的错误数学命题,用于评估主流AI模型能否识别并纠正错误陈述。
约翰斯·霍普金斯大学研究团队提出了创新的隐私保护AI文本生成方法,通过"控制代码"系统指导AI生成虚假敏感信息来替代真实数据。该方法采用"藏身于众"策略,在医疗法律等敏感领域测试中实现了接近零的隐私泄露率,同时保持了高质量的文本生成效果,为高风险领域的AI应用提供了实用的隐私保护解决方案。
实验室和真实使用测试显示,iPhone Air电池续航能够满足一整天的典型使用需求。在CNET进行的三小时视频流媒体压力测试中,iPhone Air仅消耗15%电量,表现与iPhone 15相当。在45分钟高强度使用测试中表现稍逊,但在实际日常使用场景下,用户反馈iPhone Air能够稳定支撑全天使用,有线充电速度也比较理想。
这项由Reactive AI提出的稀疏查询注意力机制通过减少查询头数量而非键值头数量,直接降低了注意力层的计算复杂度,实现了2-3倍的训练和编码加速。该方法在长序列处理中表现出色,在20万词汇序列上达到3.5倍加速,且模型质量损失微乎其微,为计算密集型AI应用提供了新的优化路径。