固态存储设备的容量正在飙升,32TB已成为常见规格,预计256TB型号将于明年初开始出货。然而,所有这些容量增长也带来了一个问题:在将驱动器投入运行之前进行测试所需的时间大幅增加。
现在,SanDisk公司已将一项可将预处理时间减少多达90%的技术开源。这种名为"SanDisk伪随机"(SanDisk Pseudo-Random,简称SPRandom)的方法,将曾经的多阶段流程压缩为单次精心设计的写入过程。
预处理是磁盘驱动器制造商和企业使用的标准程序,用于确保在实际稳态使用中获得可接受的性能。从历史上看,该过程依赖于两阶段方法:首先在驱动器上进行完整的顺序写入,然后进行长时间的随机写入,以重新分配设备内的预留空间。第二阶段迫使驱动器使用垃圾回收和内部数据移动,这会降低性能但反映了最坏情况的运行状况。
瓶颈难题
传统方法在SSD相对较小时运行良好,但SanDisk工程师表示,随着容量激增,这种方法已开始失效。大于32TB的驱动器可能需要数天甚至数周才能达到稳态,使预处理成为开发周期、资格认证时间表和客户测试的主要拖累。
"每次运行-中断-修复循环都需要预处理,"SanDisk企业SSD架构组的杰出工程师史蒂文·斯普劳斯说。"你可能只运行半小时的测试,但必须花费两到三天时间对驱动器进行预处理。"
斯普劳斯开发的解决方案不是先顺序写入驱动器然后用随机I/O进行冲击,而是在重叠区域中写入数据,故意在物理介质上创建"无效"数据。
该技术利用了SSD内部预留空间的工作方式。驱动器包含的物理闪存存储多于向用户公开的容量,额外容量保留用于后台任务(如垃圾回收)。在稳态运行中,随着时间推移,这些预留空间会在物理块之间不均匀分布。SPRandom通过写入重叠范围的逻辑块地址来数学方式重建这种分布,从而在新数据写入其他位置时使某些数据失效。
"重叠迫使驱动器使某些数据失效,"斯普劳斯解释道。"这相当于将预留空间放入这些块中。"
通过控制驱动器不同位置的重叠量,SPRandom可以近似传统随机预处理最终产生的相同内部状态,但只需一小部分时间。根据SanDisk的数据,在32TB级驱动器上曾经需要超过160小时的过程现在可以在大约6小时内完成。
这种影响在测试和资格认证期间最为明显,因为漫长的预处理周期会阻碍工程进度。SanDisk表示,工程师的目标是将运行-中断-修复循环控制在一天之内,以便快速识别和解决问题。随着容量的增加,这个目标已变得无法实现。
突破瓶颈
"如果某件事需要三天时间,你实际上就会延误整个驱动器队列的部署,"SanDisk企业SSD产品营销负责人杰夫·福赫特曼说。
磁盘制造商通常不会在出货前对每个驱动器进行预处理,因此客户经常在部署前运行自己的预处理周期。在悲观的最坏情况下测量性能可避免驱动器投入生产后出现意外情况。
SanDisk选择将SPRandom作为开源发布,并将其直接集成到广泛使用的Flexible I/O Tester基准测试工具中。福赫特曼表示,这一决定是由公司长期参与开放计算项目(OCP)和存储网络行业协会(SNIA)等行业生态系统推动的。
"OCP旨在让所有船只一起上升,"他说。"因为这是一个适用于任何驱动器类型的通用解决方案,它似乎应该成为行业推进的一部分,而不是商业化方法。"
福赫特曼表示,开源许可还允许创新蓬勃发展。早期采用者已在探索如何将该方法从单个驱动器扩展到整个机架和存储系统。
SanDisk高管表示,他们还预计开源将通过消除测试和部署的实际障碍来加速超大容量SSD的采用。随着人工智能、分析和超大规模工作负载推动存储容量增长,他们认为更快、更真实的预处理对供应商和客户都有利。
"如果预处理和测试更大容量的驱动器变得更容易,"斯普劳斯说,"这将有助于我们和整个行业。"
Q&A
Q1:SanDisk伪随机(SPRandom)技术是什么?
A:SPRandom是SanDisk公司开发的一项开源技术,用于加速超大容量SSD的预处理测试。它将传统的多阶段预处理流程压缩为单次精心设计的写入过程,通过在重叠区域写入数据来故意创建"无效"数据,从而在物理介质上模拟稳态运行状态,可将预处理时间减少多达90%。
Q2:为什么超大容量SSD需要更快的预处理方法?
A:随着SSD容量激增至32TB甚至更高,传统预处理方法需要数天甚至数周才能完成,严重拖累了开发周期和测试进度。例如,在32TB级驱动器上传统方法需要超过160小时,而使用SPRandom技术只需约6小时。这种瓶颈会延误整个驱动器队列的部署,影响工程师快速识别和解决问题的能力。
Q3:SanDisk为什么选择将SPRandom技术开源?
A:SanDisk选择开源是因为这是一个适用于任何驱动器类型的通用解决方案,符合开放计算项目(OCP)让整个行业共同进步的理念。开源许可允许创新蓬勃发展,早期采用者已在探索如何将该方法扩展到整个机架和存储系统。同时,开源有助于加速超大容量SSD的采用,消除测试和部署的实际障碍。
好文章,需要你的鼓励
随着人工智能和高性能计算持续推动需求增长,数据中心设计正以同样惊人的速度演进。曾经的高密度机架已成为标准配置,冷却系统在数月而非数年内完成重新设计,项目在各地区的规模和复杂性不断提升。全球工程设计咨询公司Black & White Engineering指出,液冷成为标准配置、极端机架密度管理、工业化规模交付、电网约束下的电力创新、AI驱动运营设计以及可持续性成为核心设计原则,将成为2026年塑造数据中心设计、建设和运营的六大关键趋势。
这项由ByteDance Seed、香港科技大学等机构联合完成的研究提出了"轨迹场"这一创新的4D视频表示方法。研究团队开发的Trace Anything系统能够在单次前向传递中为视频中的每个像素预测连续的三维轨迹,无需光流估计或迭代优化。通过构建大规模合成数据平台和精心设计的训练方案,该方法在轨迹估计基准上实现了最先进性能,同时推理速度比竞争方法快10倍以上,并展现了运动预测、时空融合等多种涌现能力。
Snowflake本周推送的一次更新导致全球范围内的"重大故障",用户长达13小时无法查询数据、文件导入失败并收到错误信息。初步调查显示,最新版本引入了不向后兼容的数据库架构更新,导致版本不匹配错误。此次故障影响了全球23个区域中的10个,包括美国、欧洲和亚洲多个数据中心。这是Snowflake一周内第二次发生事故。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。