科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道存储管理员手记:多角度认识重复数据删除

存储管理员手记:多角度认识重复数据删除

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

重复数据删除是推动基于磁盘的备份的一个技术动力。对于数据存储来说,重复数据删除是一个识别数据集中的冗余并消除这些冗余的过程。重复数据删除操作可能发生在这个流程中的很多个点,主要取决于厂商和具体情况。

作者:Moon 来源:比特网 2010年2月25日

关键字: 冗余 备份 归档 磁盘

  • 评论
  • 分享微博
  • 分享邮件

重复数据删除是推动基于磁盘备份的一个技术动力。对于数据存储来说,重复数据删除是一个识别数据集中的冗余并消除这些冗余的过程。重复数据删除操作可能发生在这个流程中的很多个点,主要取决于厂商和具体情况。例如,在备份中,重复数据删除可能发生在数据发送到备份服务器(有时称为“源”)或者备份设备接收数据副本(称为“目标”)的时候。在针对灾难恢复的复制中,重复数据删除可能发生在数据发送到灾难恢复站点以避免不必要的带宽消耗时。不少行业专家都提供了关于在何处实施重复数据删除是最理想的选择,但是现在我们先把这些都放在一边,把重点放在重复数据删除是什么这个问题上。这是了解重复数据删除的价值和适用对象的第一步。

不管在哪里实施,重复数据删除解决方案的步骤都是类似的。接收到的数据被分割成文件或者更小的子集,有些情况下这些是固定的,有些系统是可变的。这些数据子集经过一种提供了特殊标识符的哈希算法进行处理,可以被看作是一个“标记”或者序号。然后把这种特殊的标识符与其他从之前保存过的数据所生成的标识符进行对比。当冗余数据被删除掉的时候,重复数据删除就生效了。例如,如果当重复数据删除发生在接收数据而不是找到标识符的时候,接收到的数据就不会被保存,而是创建一个指向现有数据的连接。如果标识符查找任务添加到查找表格的过程中找到了标识符,那么数据就会被保存下来。如果重复数据删除发生在单独的后处理流程中,那么会首先保存冗余数据,然后在后处理流程中删除掉。

虽然重复数据删除流程中有很多小的变量,但这就是它的运作方式。识别冗余的颗粒度以及查看流程的速度是非常重要的,也是不同厂商产品的一个关键区别。

例如,文件层级的重复数据删除不要求太多软件方面的操作,也不会有识别文件中冗余片段之后的数据删除操作。如果连续两天将相同的数据库拷贝到一台重复数据删除设备上的话,那么文件级重复数据删除设备将会看到两份单独的文件。相同情况下,一个片段层级的重复数据删除设备中会看到一样的文件,如果发生变更就只保存变更数据,同时创建一个指向冗余数据的指针。

这种指针就像是一个关联数据库不会拷贝每个发票中的用户信息,而是创建一个指针,从一个独立的表格中调用用户的信息。重复数据删除系统实际上就是把文件中的片段当作一个关联数据库。

重复数据删除的用户

显而易见,要使用重复数据删除就必须有冗余的数据。恐怕数据中心中没有哪个存储库的冗余数据要比备份存储更多的了。大多数数据中心每周或者每月会进行一次全面备份,而且这些备份中大多数数据都是与上一次全面备份的数据是相同的。这就是重复数据删除主要针对的领域,也是这个市场为什么成为重复数据删除技术应用第一个落脚点的原因。

随着重复数据删除逐渐在市场中普及,人们也开始对在备份流程中使用SATA磁盘越来越感兴趣。问题是,尽管新的SATA技术的成本要比光纤通道低很多,但是不会比磁带更低。如果使用磁盘,那么它的主要功能就是作为暂时保存副本、然后将数据发送到磁盘的缓存。

这个策略令人失望的一点是,尽管磁盘备份可以缩短备份窗口时间,但是其他一些瓶颈会削弱使用磁盘的效果,例如网络速度和备份客户生成数据流的能力。

磁盘备份的优势在恢复方面表现得更加明显一些。使用磁盘,你不需要挨个地搜索磁带寻找数据,你可以直接定位到数据的保存位置。这就避免了恢复流程中速度最慢的一部分:找到数据。

在磁盘备份方面,重复数据删除取得了重大的改进。它让数据更有效更具成本效益地保存在磁盘上。正如之前所提到的,大多数全面备份都是高度冗余的。甚至是日常的备份也会产生大量冗余。例如,一个备份应用每天会把一个数据库或者Exchange库视作是全新的。上面说了,重复数据删除设备只保存变量。这样即使是每天备份,效率也不会受到影响。

总体影响是,重复数据删除允许在磁盘存储上保存数月的备份,这只比全面备份的实际容量大一点。因此,使用磁盘就是很有成本效益的方法,备份也可以保存在磁盘而不是磁带上。

重复数据删除的第二个影响就是可以远程保存数据。在基于标准磁盘的备份中,整个备份可以作为一系列新的大型的文件保存起来。这样不仅识别这些文件中的变更数据,而且复制到传统WAN中又过于庞大了。然而,因为重复数据删除之保存变更的数据块或者数据片段,因此它可以轻松地将这些变更复制到一个远程灾难恢复站点。重复数据删除的最大好处可能更多是关于灾难恢复而不是向磁带保存多个备份的能力。

现在,Data Domain的厂商都在改善他们解决方案的复制功能(包括多对一复制)方面投入大量资金,支持赛门铁克OST等软件API来备份应用,从而控制和掌握整个复制流程。

重复数据删除配合数据压缩

关于重复数据删除的讨论将从备份延伸到用于归档、二级NAS存储甚至是主存储。需要指出的是,随着重复数据删除逐渐向存储食物链上端转移,数据冗余将变得越来越不明显,配合数据压缩的重复数据删除将越来越重要。所有数据都是可压缩的。重复数据删除比压缩更有效,但是要有冗余数据它才会奏效。

可靠的重复数据删除

早在重复数据删除还是一项新型技术的时候,在环境中实施重复数据删除的最大障碍就是信任度。毕竟,这项技术看上去似乎是不保存所有数据。而实际上,一系列数据计算会决定发送到重复数据删除系统的数据是否已经被保存了。有些情况下,它对数据完整性的检查甚至多过了传统存储系统。因此,事实证明重复数据删除系统提供了更高的数据完整性——达到了一个大型、风险规避的企业都要拥有这项技术的水平。

现在的重复数据删除

现在是时候认真地考虑将重复数据删除作为一项数据中心策略了。重复数据删除产品逐渐成熟,可靠且值得信赖。也许使用重复数据删除最好的起点就是作为对备份流程的扩展。由于备份变量较少,你可以充分体会到重复数据删除所带来的好处。然后你就可以放心地在归档或者二级NAS中尝试使用重复数据删除了。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章