根据一份16页文件中做出的详细解释,微软希望通过Silica项目探索在石英玻璃板内存储多层归档数据的可能性,而且目前距离成熟产品已越来越近。
微软对其玻璃归档存储项目的更新,已经以学术论文的形式被提交至第29届ACM操作系统原理大会(SOSP 2023)。
其目的是开发一套能够读取和写入数据的云规模归档介质系统。编码技术是在方形玻璃板内的点上生成具有偏振图案的区域,可由3D坐标进行定义并分为几百层。
这些偏振图案点被称为“立体像素”(简称体素),由飞秒激光脉冲所产生。每个体素能够编码3到4位数据。体素首先被并排写入由玻璃板XY平面的2D层内,之后再被组织成矩形扇区,由此在XY平面上形成超10万个体素二维组,对应约100 KB数据容量。一组3D扇区则构成一条存储轨,意味着每块玻璃板能够容纳几个TB的数据。
整个设计与Cerebyte技术颇为相似,后者同样使用飞秒激光脉冲在方形玻璃板上的陶瓷涂层中激发物理变化。这些变化就是纳米级的孔,类似于高科技版本的打孔卡。但Cerabyte的孔是作为二维码的一部分所生成,而Silica项目中的体素则被放置在存储轨之上。整块玻璃板将旋转在平台上,由平台的读写头设备(即激光与偏光显微镜)从左到右、自上而下地移动操作。相比之下,Cerabyte的玻璃载体只能向前或向后移动,且仅可容纳单层介质。总之,Silica项目的玻璃真正成为一种能够随机访问的存储介质。
Cerabyte和微软都设想用图书库机架的形式来容纳这种数据存储介质——在Cerabyte的设计中,这些方形玻璃数据载体将被容纳在一个个盒子当中;而在微软这边,玻璃则可以独立存在、不必额外借助容器。库内有一套机器人传输系统,包含多台由独立电池供电的机器人拾取器(穿梭机)。它们就如同一群蜜蜂,能够穿越书库机架间的多乏善可陈水平导轨并垂直上下翻转,轻松完成读取和写入任务。微软将其比作“受最先进仓库机器人系统启发而来的一组用于数据操作的免费漫游班车”。
微软Silica项目的库内,两台独立机器人拾取器正在运行。
微软表示,“读取驱动器会以单向快速Z轴模式扫描扇区,并对生成的图像进行解码处理。不同的读取驱动器选项对应不同的数据吞吐量以及较为均衡的成本和性能。”
也就是说,Silica项目的系统提供多种读写驱动器选项。
写入机架与库机架之间还有一个意向系统,防止玻璃盘片被覆写。与Cerabyte一样,Silica项目技术本质上也只能写入一次,属于物理WORM系统。微软表示,“一旦玻璃介质被写入,机器人就无法将玻璃盘再次插入写入设备。”也就是说在库系统层级上保留实体气隙,单个玻璃盘片会被一次性写入并用尽全部容量。
写入驱动器为全机架大小,可同时对多张盘片进行写入;包含多个驱动器的读取驱动器机架也采用相同设计。读写驱动器机架都需要配备冷却、电源和网络连接。
写入的盘片在放入库中之前先要接受读取验证。也就是说,新写入的驱动器将由穿梭机携带至读取驱动器。微软在论文中指出,“为了实现更高的驱动器执行效率,可以在单一读取驱动器内同时安装两块盘片;其一接受验证,其二供客户读取,且客户流量优先于验证流量。”
从Silica盘片中读取(扫描)到的体素图像将通过机器学习算法被转换为二进制数据。读取驱动器在XY平面上寻找相应的存储轨,之后在Z(深度)方向上通过单次扫描读取整个存储轨内的扇区。读取驱动器的吞吐量以30 MBps为倍数进行扩展。
微软研究人员还分析了Azure归档IO模式,发现小文件IO(即256 MiB到256 GiB)在实际应用中占主导地位,而且不同规模IO在数据中心层面的性能差异极大。也就是说,“应当最大限度减少库内机械运动的延迟,从而实现最佳性能”,而Silica库应可针对不同的工作负载模式进行定制。
Silica项目的库系统使用两种错误编码技术——LDPC(低密度奇偶校验)扇区间错误编码以及网络擦除编码(NC),包括轨内、大规模组(多轨)及跨盘等多种NC变体。
Silica库的读取性能、接收读取请求与库读取/发送的最后一个字节间的延迟,由第99.9百分位结果定义,即由尾部完成时间定义。微软假设“到最后一个字节的服务质量目标(SLO)为15小时,即与现有归档服务保持一致。”
然而,这里的完成时间并不包括机器学习算法用于解码的部分。
微软在论文中总结道,“玻璃介质的独特属性,以及软件层面全新的云优先协同设计,使Silica从根本上获得了更好的可持续性,且相较于磁带存储显著降低了数据归档成本。”
这种基于玻璃的归档方案,标志着首个有望取代磁带归档的可靠技术,而且比DNA存储更具现实意义。微软和Cerabyte正着力推进这项磁带归档替代成果,有望在未来五年内推出可交付产品。磁带厂商更应该关注相关动态,思考如何将其纳入自家产品规划路线图。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。