微软公布了一种自动化DNA存储和检索系统,未来有望取代像Facebook基于蓝光光盘的冷存储系统那样的光存储系统。
微软相信,合成DNA可能是长期数据存储的下一个重大技术飞跃,只需一克DNA就能存储215PB数据长达2000年时间。如果能够实现这一目标,该技术将显着减少全球快速增长的数据所需的存储空间。
微软研究人员与华盛顿大学以微软已故创始人Paul Allen名字命名的计算机科学和工程学院,打造出了一种由液体、管子,注射器和电子元件组成的系统,成为世界上第一台自动DNA存储设备。
研究人员利用这个概念验证的DNA存储设备,通过在DNA片段中编码“hello”并将其转换回数据,来展示它所具备的写入和读取功能。
这台设备的售价约为10000美元,但研究人员认为,如果不带传感器和执行器的话,小批量的制造成本可以减少三分之二。
根据《自然》杂志的描述,该设备由具有编码和解码软件的计算机组成,解码软件将数字和零转换为DNA的四个碱基:A、C、T、G;此外还有一个DNA合成模块,一个DNA制备和测序模块,两者中间是一个储存DNA的容器。
微软首席研究员Karin Strauss表示,他们希望证明有一种实用的DNA数据存储自动化方法。
“我们的终极目标是投入生产一款对最终用户来说非常像云存储服务的系统——字位被发送到数据中心,保存在那里,当客户需要的时候就会出现。”
“要做到这一点,我们就要从自动化角度去证明这是实用的。”
Paul G Allen计算机科学与工程学院高级研究科学家Chris Takahashi解释说,虽然现在很多机器已经被用于DNA的合成和测序,但很多步骤都是手动的。
Takahashi表示:“你不能让一群人带着吸量管在数据中心跑来跑去——这太容易出现人为错误,成本太高,占用空间太大。”
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。