根据一份16页文件中做出的详细解释,微软希望通过Silica项目探索在石英玻璃板内存储多层归档数据的可能性,而且目前距离成熟产品已越来越近。
微软对其玻璃归档存储项目的更新,已经以学术论文的形式被提交至第29届ACM操作系统原理大会(SOSP 2023)。
其目的是开发一套能够读取和写入数据的云规模归档介质系统。编码技术是在方形玻璃板内的点上生成具有偏振图案的区域,可由3D坐标进行定义并分为几百层。
这些偏振图案点被称为“立体像素”(简称体素),由飞秒激光脉冲所产生。每个体素能够编码3到4位数据。体素首先被并排写入由玻璃板XY平面的2D层内,之后再被组织成矩形扇区,由此在XY平面上形成超10万个体素二维组,对应约100 KB数据容量。一组3D扇区则构成一条存储轨,意味着每块玻璃板能够容纳几个TB的数据。
整个设计与Cerebyte技术颇为相似,后者同样使用飞秒激光脉冲在方形玻璃板上的陶瓷涂层中激发物理变化。这些变化就是纳米级的孔,类似于高科技版本的打孔卡。但Cerabyte的孔是作为二维码的一部分所生成,而Silica项目中的体素则被放置在存储轨之上。整块玻璃板将旋转在平台上,由平台的读写头设备(即激光与偏光显微镜)从左到右、自上而下地移动操作。相比之下,Cerabyte的玻璃载体只能向前或向后移动,且仅可容纳单层介质。总之,Silica项目的玻璃真正成为一种能够随机访问的存储介质。
Cerabyte和微软都设想用图书库机架的形式来容纳这种数据存储介质——在Cerabyte的设计中,这些方形玻璃数据载体将被容纳在一个个盒子当中;而在微软这边,玻璃则可以独立存在、不必额外借助容器。库内有一套机器人传输系统,包含多台由独立电池供电的机器人拾取器(穿梭机)。它们就如同一群蜜蜂,能够穿越书库机架间的多乏善可陈水平导轨并垂直上下翻转,轻松完成读取和写入任务。微软将其比作“受最先进仓库机器人系统启发而来的一组用于数据操作的免费漫游班车”。
微软Silica项目的库内,两台独立机器人拾取器正在运行。
微软表示,“读取驱动器会以单向快速Z轴模式扫描扇区,并对生成的图像进行解码处理。不同的读取驱动器选项对应不同的数据吞吐量以及较为均衡的成本和性能。”
也就是说,Silica项目的系统提供多种读写驱动器选项。
写入机架与库机架之间还有一个意向系统,防止玻璃盘片被覆写。与Cerabyte一样,Silica项目技术本质上也只能写入一次,属于物理WORM系统。微软表示,“一旦玻璃介质被写入,机器人就无法将玻璃盘再次插入写入设备。”也就是说在库系统层级上保留实体气隙,单个玻璃盘片会被一次性写入并用尽全部容量。
写入驱动器为全机架大小,可同时对多张盘片进行写入;包含多个驱动器的读取驱动器机架也采用相同设计。读写驱动器机架都需要配备冷却、电源和网络连接。
写入的盘片在放入库中之前先要接受读取验证。也就是说,新写入的驱动器将由穿梭机携带至读取驱动器。微软在论文中指出,“为了实现更高的驱动器执行效率,可以在单一读取驱动器内同时安装两块盘片;其一接受验证,其二供客户读取,且客户流量优先于验证流量。”
从Silica盘片中读取(扫描)到的体素图像将通过机器学习算法被转换为二进制数据。读取驱动器在XY平面上寻找相应的存储轨,之后在Z(深度)方向上通过单次扫描读取整个存储轨内的扇区。读取驱动器的吞吐量以30 MBps为倍数进行扩展。
微软研究人员还分析了Azure归档IO模式,发现小文件IO(即256 MiB到256 GiB)在实际应用中占主导地位,而且不同规模IO在数据中心层面的性能差异极大。也就是说,“应当最大限度减少库内机械运动的延迟,从而实现最佳性能”,而Silica库应可针对不同的工作负载模式进行定制。
Silica项目的库系统使用两种错误编码技术——LDPC(低密度奇偶校验)扇区间错误编码以及网络擦除编码(NC),包括轨内、大规模组(多轨)及跨盘等多种NC变体。
Silica库的读取性能、接收读取请求与库读取/发送的最后一个字节间的延迟,由第99.9百分位结果定义,即由尾部完成时间定义。微软假设“到最后一个字节的服务质量目标(SLO)为15小时,即与现有归档服务保持一致。”
然而,这里的完成时间并不包括机器学习算法用于解码的部分。
微软在论文中总结道,“玻璃介质的独特属性,以及软件层面全新的云优先协同设计,使Silica从根本上获得了更好的可持续性,且相较于磁带存储显著降低了数据归档成本。”
这种基于玻璃的归档方案,标志着首个有望取代磁带归档的可靠技术,而且比DNA存储更具现实意义。微软和Cerabyte正着力推进这项磁带归档替代成果,有望在未来五年内推出可交付产品。磁带厂商更应该关注相关动态,思考如何将其纳入自家产品规划路线图。
好文章,需要你的鼓励
本文探讨了AI驱动的网络攻击如何在短短51秒内突破网络防线,并介绍了CISO们应对这些超高速攻击的策略。重点包括零信任架构、身份验证强化、AI驱动的实时威胁检测等。文章强调了迅速撤销会话令牌、统一端点和云安全、以及从恶意软件检测转向凭证滥用预防的重要性。
Lovelace Studio 正在开发名为 Nyric 的 AI 工具,帮助玩家在生存制作类沙盒游戏中打造自己的游戏世界。玩家可以使用 AI 工具创建独特风格的世界,并与其他玩家互动。该工具旨在赋予独立创作者和社交玩家更多能力,让他们能够轻松构建和连接自己的虚拟世界。
随着AI代码生成工具的广泛应用,企业面临着新的挑战。AI生成的代码可能存在安全漏洞、架构问题和合规风险。为此,企业需要实施严格的验证流程,认识AI在复杂代码库中的局限性,理解AI代码的特有问题,要求开发人员对代码负责,并建立高效的AI工具审批机制。同时,专门的代码分析工具也变得不可或缺。
AI 语音克隆技术的滥用正日益成为企业面临的重大安全威胁。近期多起高调事件显示,不法分子利用 AI 生成的虚假音频视频进行诈骗。目前许多语音克隆应用缺乏有效防护措施,企业领导人的公开音频很容易被用于克隆。专家呼吁采取多因素认证等措施加强防范,并预计未来将出台更多监管措施和检测技术来应对这一威胁。