SNIA的DNA存储联盟发布了一份52页的技术评估报告,深入分析了数据编码/解码技术、商业化就绪度指标以及未来面临的挑战。
DNA数据存储依赖于使用DNA链中四种核苷酸序列对数字信息进行编码。这四种核苷酸分别是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),它们存在于DNA生物聚合物分子的双螺旋结构中,位于所有生物体的细胞内。合成DNA能够以比其他存储介质小数个数量级的形式存储数据,并可保存数百年。它依赖分子层面的化学反应,这些反应比半导体中的电气操作要慢,这正是其核心挑战所在。
DNA数据存储已在研究项目中得到验证,但数据写入/读取速度以及设备尺寸、复杂性和成本都远未达到成功商业化产品的要求。这份技术文档全面审视了该领域,涵盖DNA编解码器、合成、存储和检索、测序以及商业化挑战等方面。
对挑战的分析揭示了五个主要问题:数据吞吐量、总体拥有成本、介质耐久性和数据保留指标、生物安全和数据安全,以及标准化。在吞吐量方面,报告指出:"传统存储中数据输入输出的要求远超当前生物技术应用场景中DNA写入和读取的能力。"
报告表示:"DDS(DNA数据存储)系统最根本的挑战是提高DNA写入和读取操作的吞吐量。DNA的底层写入和读取操作是相对缓慢的化学反应(高延迟),因此提高吞吐量的重点在于实现并行处理。"
报告建议:"DDS技术提供商必须提高底层写入和读取操作的吞吐量,同时减少分子在操作间移动所需的时间,并在此过程中为特定应用场景维持有竞争力的总体拥有成本。"
报告以乐观的语调结尾:"尽管DNA数据存储仍处于萌芽阶段,商业化仍面临重大挑战,但使用DNA进行数据写入、存储、检索和读取的基础已在可扩展技术平台上得到验证。此外,由生物和科学应用驱动的DNA技术持续投资将继续推动创新,增强DNA数据存储能力。"
DNA数据存储将补充而非替代现有的归档存储技术,"以可行的总体拥有成本解决泽字节规模和数据保存的'保存/丢弃'难题。"
报告称,DNA归档数据存储的应用案例将在未来三到五年内出现。
报告包含许多对于电子数字存储从业者来说陌生的术语,如同聚物、寡核苷酸、连接和聚合酶等,这是因为它涉及分子有机化学领域。该文档可免费下载,是DNA数据存储的优秀入门资料。
附注
DNA存储联盟是SNIA的一个社区组织,拥有约35名成员和六人董事会:
Esther Singer,DNA数据存储总监,Twist Bioscience
Stephane Lemaire,联合创始人兼高级创新官,Biomemory
David Landsman,行业标准总监,西部数据
David Turek,首席技术官,Catalog
Marthe Volette,技术总监,Imagene(以色列AI生物技术公司)
Julien Muzar,生命科学技术专家,Entegris(拥有8000名员工的半导体及其他高科技行业先进材料和工艺解决方案供应商)
Twist Bioscience是成员企业并拥有董事会席位,最近改变了其对DNA数据存储的立场。该公司将其DNA业务剥离为Atlas Data Storage,这是一家由HPE收购的Nimble Storage联合创始人兼CEO Varun Mehta领导的商业化初创公司。Twist保留所有权股份,Atlas在5月份完成了1.55亿美元的种子轮融资。我们预计Atlas将接管Bioscience的成员资格,可能还包括其董事会席位。
Esther Singer仍是Twist员工,担任产品和市场开发总监。我们认为,三家最重要的DNA存储技术公司是Biomemory、Catalog和Atlas Data Storage。
好文章,需要你的鼓励
麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源:注意力机制存在固有缺陷。研究通过理论分析和实验证明,即使在理想条件下,注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点,为未来AI架构发展指明新方向,提醒用户在复杂推理任务中谨慎使用AI工具。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
中科院自动化所等机构联合发布MM-RLHF研究,构建了史上最大的多模态AI对齐数据集,包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法,显著提升多模态AI的安全性和对话能力,为构建真正符合人类价值观的AI系统提供了突破性解决方案。