希捷公司的DNA存储片上实验室技术,承诺在口香糖大小的DNA存储读取与写入器上,实现一倍、两倍甚至更高的DNA存储IO速率。
这项Catalog DNA存储技术的基础,是将二进制数据编码至四组分核碱基DNA双螺旋分子当中。Catalog使用约200个预先合成的DNA序列,即寡核甘酸,其长度约为30至40个碱基对,排列类似于字母表中的字母。这些碱基对连接起来,即可表达IT存储语言中的字节。各DNA序列经干燥处理后存储在颗粒内,信息密度可达到每克200 PB甚至更高,生命周期约为1000年。
要进行数据读取,需要对颗粒中的相应DNA粉末或薄片进行重新水化,而后进行测序以检测核碱基含量,最终恢复为二进制数据。整个过程涉及大量流体传输与处理,目前的研发主要基于现有微流体研究数据。该技术将液滴控制在飞升大小,即10−15升,也可计为普通公升的千万亿分之一。
希捷已经向媒体简要介绍了其片上实验室研究,以及与Catalog合作开发DNA存储技术的情况。希捷公司研究副总裁Ed Gage还专门介绍了其为何对DNA存储这一迥异于磁盘驱动器、且处于科学研究最前沿的技术抱有兴趣。
希捷公司研究副总裁Ed Gage表示,该公司一直努力打造能够存放全球数字数据的解决方案。目前的数据总规模已经增长至ZB级别,而DNA存储有望在极少量液体内存储TB级数据,并在扩展之后逐步实现EB乃至ZB级别的存储容量。
微软在去年12月发表的一篇论文中指出,“要存储9 ZB数据,需要数百万个磁盘盒(目前容量密度最大的商用存储介质),而如果存放在DNA内,则只需要占用一个小冰箱。”
换算下来,DNA存储的每立方英寸体积可容纳1 EB数据。
Gage还谈到了最初的愿景:“我认为最初的设计方案……在外观上应该类似于磁盘驱动器,就是那种很小很小的磁带盒,经过干燥处理之后已经没有流动性。它们可以存放在存储库内。我们还会在前端配备其他一些存储介质,有可能是磁盘驱动器,用以跟踪所有元数据。”
片上实验室的大小类似于M.2 2280口香糖NAND驱动器。Gage表示,“随着容量的扩展,其体积可能会变得更大。但目前来说它就是这么小巧。”
该方案可用于创建以二进制数据编码的DNA序列。目前,研究人员正努力寻求加快写入(创建DNA序列)和读取(执行DNA测序)过程的方法。
希捷公司生化工程师Gemma Mendonsa介绍称,“我们基本就是在寻求能提高写入速度的化学方法,缩短将DNA片段组合起来的时间,目前的写入速度还非常慢……要实现实际应用,最终写入速度还得再提高几个数量级。”
Catalog的寡核苷酸概念指明了可能的前进道路。Gage指出,“我们并不是直接写入核苷酸,而是选择了一种几何级数的写法。我们相信这种写法能大大加快执行速度。”他还提到,这种方法又引出了衔接物(linker)库的概念——“使用衔接物库进行汇编,我们才能以几何方式构建,而非一次一个。”
Mendonsa解释道,“在传统的DNA合成化学中……用亚磷酰胺反应将一个核苷酸添加到一条DNA链内,大约需要两到三分钟……但如果能够制造出大量核苷酸或者寡核苷酸,那么写入速度就会快得多。所以整个写入过程,就是向包含大量相同序列的DNA库中存储不同序列的操作。之后在需要时将其取出,并以正确的顺序拼凑在一起。只要能做到这一点,我们就得到了长度为L的DNA链,而且一次能够组合10条。这样我们就有了一条长度为10L的线,再将10根线聚集在一起,就构成了长度100L的弦。”
再将10条弦组合起来,总长度就能达到1000L。但Gage认为这还不够,“我们还得再进一步,再提升1到2个数量级。”
微软DNA存储论文预计,DNA电化学阵列技术将使“合成吞吐量在单一写入模块中应该能达到每秒MB级别的写入速率”,相当于把目前2到3分钟写入1个字节再提升几个数量级。
液滴流通问题
这些DNA链将漂浮在片上实验室中飞升大小的液滴之内。Gage解释称,“我们还在投资研究液滴的流通问题。当对这么多液滴进行路由时,必须保证它们相互不会碰撞,否则液滴就会混合起来。这将是个非常复杂的流通难题,我们正在寻求解决办法。”
那片上实验室会不会引入液滴管道?Gage表示否认,称“液滴会在电极网格上移动并高速飞行。但要达到符合预期的速度,还有很多挑战需要解决,否则根本不可能在有限的时间内写入PB级别的数据。”
Mendonsa指出,“只要涉及液体处理,设备都会瞬间变得非常复杂。所以得想办法把液滴放置在片上实验室内,尽量避免使用输液管道和喷嘴之类的装置。”
这里我们用盒式磁带作类比,理解整个读取过程。典型的磁带大家都熟悉,磁条往往有几百米长,一条条平行的数据磁道有着明确的起点和终点。
我们从颗粒中取出几片干燥的DNA并重新水合,这样就得到了漂浮在定量液体之上的DNA链,接下来就是进行读取以实现测序。按照盒式磁带的操作来讲,就像是把一条几百米长的色带剪成几百万条,然后把它们扔到一碗水里。但这个复杂度明显要比磁带机高得多,我们不可能拿着磁头幻想能轻松找到正确起点,再以正确顺序读取每个数据片段。
Mendonsa解释称,“关于这项技术,微软发表了不少研究论文。其他多所大学也在研究如何搜索存储在DNA内的数据,并提取出真正需要的部分。”
“DNA由两条交缠在一起的链组成,二者互为补充。所以可以想象,如果要从中提取特定的物质,比如想用特定的搜索词搜索某个文件,就得把它也编码成一段DNA。它会与任何能够匹配的部分交缠,接下来就能拉取出来。如果只需要几个文件,那没必要对整条链进行排序,只需要利用DNA的特性进行提取即可。”
希捷公司已经打造出一款片上实验室原型,但整体系统架构仍在开发当中。例如,干燥环节应该在片上实验室进行,还是由单独的进程完成?此外还有污染的可能性,毕竟流体很可能会在组合过程中留下痕迹。
Mendonsa指出,“我们必须在片上实验室中避免污染问题,毕竟我们想要打造的可不是一次性存储设备,那样成本太过高昂。我们已经探索了多种不同的净化或清洁解决方案。我们可以使用这些解决方案来防止污染,或者在反应后进行清理。”
也许未来会出现机架式的DNA存储设备,它也会有相应的运行生命周期。这意味着片上实验室也得具备同样的稳定运行周期,而且装载充足的试剂以保证在整个周期内持续起效。
这无疑将是一项碗里多年的努力,涉及极为前沿的纳米级电化学阵列科学,而且还远远达不到现有NAND与DRAM半导体制造技术的水平。这种利用复杂生化反应、依靠静电移动飞升大小寡核苷酸液滴的尝试堪称前所未见,所以我们还要再多给希捷一些时间。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。