根据一份16页文件中做出的详细解释,微软希望通过Silica项目探索在石英玻璃板内存储多层归档数据的可能性,而且目前距离成熟产品已越来越近。
微软对其玻璃归档存储项目的更新,已经以学术论文的形式被提交至第29届ACM操作系统原理大会(SOSP 2023)。
其目的是开发一套能够读取和写入数据的云规模归档介质系统。编码技术是在方形玻璃板内的点上生成具有偏振图案的区域,可由3D坐标进行定义并分为几百层。
这些偏振图案点被称为“立体像素”(简称体素),由飞秒激光脉冲所产生。每个体素能够编码3到4位数据。体素首先被并排写入由玻璃板XY平面的2D层内,之后再被组织成矩形扇区,由此在XY平面上形成超10万个体素二维组,对应约100 KB数据容量。一组3D扇区则构成一条存储轨,意味着每块玻璃板能够容纳几个TB的数据。
整个设计与Cerebyte技术颇为相似,后者同样使用飞秒激光脉冲在方形玻璃板上的陶瓷涂层中激发物理变化。这些变化就是纳米级的孔,类似于高科技版本的打孔卡。但Cerabyte的孔是作为二维码的一部分所生成,而Silica项目中的体素则被放置在存储轨之上。整块玻璃板将旋转在平台上,由平台的读写头设备(即激光与偏光显微镜)从左到右、自上而下地移动操作。相比之下,Cerabyte的玻璃载体只能向前或向后移动,且仅可容纳单层介质。总之,Silica项目的玻璃真正成为一种能够随机访问的存储介质。
Cerabyte和微软都设想用图书库机架的形式来容纳这种数据存储介质——在Cerabyte的设计中,这些方形玻璃数据载体将被容纳在一个个盒子当中;而在微软这边,玻璃则可以独立存在、不必额外借助容器。库内有一套机器人传输系统,包含多台由独立电池供电的机器人拾取器(穿梭机)。它们就如同一群蜜蜂,能够穿越书库机架间的多乏善可陈水平导轨并垂直上下翻转,轻松完成读取和写入任务。微软将其比作“受最先进仓库机器人系统启发而来的一组用于数据操作的免费漫游班车”。
微软Silica项目的库内,两台独立机器人拾取器正在运行。
微软表示,“读取驱动器会以单向快速Z轴模式扫描扇区,并对生成的图像进行解码处理。不同的读取驱动器选项对应不同的数据吞吐量以及较为均衡的成本和性能。”
也就是说,Silica项目的系统提供多种读写驱动器选项。
写入机架与库机架之间还有一个意向系统,防止玻璃盘片被覆写。与Cerabyte一样,Silica项目技术本质上也只能写入一次,属于物理WORM系统。微软表示,“一旦玻璃介质被写入,机器人就无法将玻璃盘再次插入写入设备。”也就是说在库系统层级上保留实体气隙,单个玻璃盘片会被一次性写入并用尽全部容量。
写入驱动器为全机架大小,可同时对多张盘片进行写入;包含多个驱动器的读取驱动器机架也采用相同设计。读写驱动器机架都需要配备冷却、电源和网络连接。
写入的盘片在放入库中之前先要接受读取验证。也就是说,新写入的驱动器将由穿梭机携带至读取驱动器。微软在论文中指出,“为了实现更高的驱动器执行效率,可以在单一读取驱动器内同时安装两块盘片;其一接受验证,其二供客户读取,且客户流量优先于验证流量。”
从Silica盘片中读取(扫描)到的体素图像将通过机器学习算法被转换为二进制数据。读取驱动器在XY平面上寻找相应的存储轨,之后在Z(深度)方向上通过单次扫描读取整个存储轨内的扇区。读取驱动器的吞吐量以30 MBps为倍数进行扩展。
微软研究人员还分析了Azure归档IO模式,发现小文件IO(即256 MiB到256 GiB)在实际应用中占主导地位,而且不同规模IO在数据中心层面的性能差异极大。也就是说,“应当最大限度减少库内机械运动的延迟,从而实现最佳性能”,而Silica库应可针对不同的工作负载模式进行定制。
Silica项目的库系统使用两种错误编码技术——LDPC(低密度奇偶校验)扇区间错误编码以及网络擦除编码(NC),包括轨内、大规模组(多轨)及跨盘等多种NC变体。
Silica库的读取性能、接收读取请求与库读取/发送的最后一个字节间的延迟,由第99.9百分位结果定义,即由尾部完成时间定义。微软假设“到最后一个字节的服务质量目标(SLO)为15小时,即与现有归档服务保持一致。”
然而,这里的完成时间并不包括机器学习算法用于解码的部分。
微软在论文中总结道,“玻璃介质的独特属性,以及软件层面全新的云优先协同设计,使Silica从根本上获得了更好的可持续性,且相较于磁带存储显著降低了数据归档成本。”
这种基于玻璃的归档方案,标志着首个有望取代磁带归档的可靠技术,而且比DNA存储更具现实意义。微软和Cerabyte正着力推进这项磁带归档替代成果,有望在未来五年内推出可交付产品。磁带厂商更应该关注相关动态,思考如何将其纳入自家产品规划路线图。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。