扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
备份重复数据删除势在必行
IDC曾发布过关于数字宇宙(指由全球所有消费者和企业所创建的数据,包括视频、音频和文件等)未来十年的研究报告。报告指出,在2010年,数字宇宙将达到1.2ZB,或者120万PB。到2020年,数字宇宙将是2009年的44倍。
IDC今年公布的“数字宇宙”调查,2009年总容量0.8ZB,2020年将达到35.2ZB,增长44倍
报告中有一句话格外值得我们注意:当前创造出来的数字信息量比现有的存储容量多出35%,并将在未来几年跃升到60%。
如何弥补这一缺口?或者,至少不让它变得更大?
我们显然不能通过限制信息技术的使用量来减少数字信息的产生,就像时下流行的环保、"绿色"理念一样,要点是减少不必要的浪费,提高效率。
譬如,若不是出于容灾等主动性的考虑,为一份数据保存多个副本,便可视为一种浪费存储空间的行为。不难想到,日复一日的备份操作是制造重复数据的"重灾区"——就算每周做一次全备份,累积下来,重复数据的数量也将大得惊人。所以,重复数据删除(Data De-duplication,常简称De-dupe或"去重")技术最早在备份领域开花结果,完全在情理之中。
重复数据删除技术之所以能节省存储空间,在于遇到重复数据时,不会再次保存,而代之以一个指向第一份(也是唯一一份)数据的索引。看起来,重复数据删除和数据压缩很像,但数据压缩是在单个文件范围内删除重复的数据(代之以指向第一份数据的索引),而重复数据删除把这个概念扩展到跨文件、跨应用、跨客户端,乃至跨时间范围。
确切地说,重复数据删除与数据压缩的主要区别在于:假如你有两个完全相同的文件,数据压缩会对每个文件进行重复数据的排除,并代之以指向第一份数据的索引;而重复数据删除则能分辨出两个文件完全相同,从而只保存第一个文件。而且,它还跟数据压缩一样,排除掉第一个文件里的重复数据,使实际存储的数据进一步减少。
因此,重复数据删除的去重比例,明显高于数据压缩。根据数据类型的不同,重复数据删除率通常在2:1~10:1之间,但在实际应用中,还要考虑使用场合与重复数据删除技术具体实现的因素。以备份应用来说,经过一段的稳定运行后,重复数据删除率能达到20:1至50:1的水平。
某厂商重复数据删除备份产品的工作原理图
现在,几乎所有的虚拟磁带库(VTL)产品都集成了重复数据删除功能,道理很简单——VTL主要就是用来做备份的,放着那么多重复数据不处理,实在说不过去。但是,这并不意味着,重复数据删除技术只能和VTL这样的硬件设备捆绑在一起。
事实上,作为一种软件功能,重复数据删除几乎可以出现在数据处理的任何一个环节,由此也有了诸如源端重复数据删除、目标端重复数据删除、in-line、post processing等众多流派,不过并非本文讨论的重点。我们想要提醒大家的是,就软件与硬件的结合来看,具有重复数据删除功能的NAS设备,越来越值得中小企业用户关注。
重复数据删除技术与NAS的结合并不新鲜——在重复数据删除领域享有盛誉的Data Domain,便是从NAS入手的。换句话说,"NAS + De-dupe"是一个在技术上相当成熟的组合。那么,这个组合,对于中小企业用户来说,具有哪些优势呢?
一个具有重复数据删除功能的NAS,去重是在底层,通过块级重复数据删除技术实现的,对于用户来说,去除重复数据的过程是完全透明的——当然,VTL也一样。不同之处在于,以NAS的方式使用,自然也继承了NAS的一切优点。
首先是使用简单。NAS提供的存储空间,在Windows下映射为网络驱动器,Linux下是一个Mount点,总之都可以直接使用。
其次是用途更广。NAS能够用作主存储,保存生产数据;而如果做数据保护,可以直接复制或同步,并不需要备份软件。当然,主流的备份软件都支持CIFS/NFS,所以也可买几万元的备份软件来简化备份操作流程。
第三是功能更强。中小型客户除本地以外,也有远程备份需求,而VTL和磁带库很难做到。并且,VTL不能实时同步,NAS则可以实现基于数据块的同步。VTL加上LAN Free备份模块才能做的事情,NAS可以很轻松地搞定。
最后是门槛更低。公司现有的以太网环境就已足够,更不需要给备份服务器安装价格不菲的FC HBA。如果您觉得DD610这样的入门级重复数据删除NAS设备还是太贵,那么,也可以尝试把公司现有的x86服务器改造为一台具备重复数据删除能力的NAS——只需要安装一个硬件加速卡和配套的重复数据删除软件,譬如我们接下来将要介绍的这款产品。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者