科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道重复数据删除技术生存指南(第二篇)

重复数据删除技术生存指南(第二篇)

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

这是我们探讨重复数据删除技术和重复数据删除解决方案执行策略“四部曲”的第二篇,本篇将谈论重复数据删除技术的两种方式,这主要涉及in-line和post-processing两种重复数据删除方式。

作者:存储时代/月之暗面(编译) 来源:Stor-age.com 2008年8月18日

关键字: 备份 Post-processing inline 灾难恢复 重复数据删除

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

恢复性能

Post-processing解决方案也具有很好的恢复性能,因为将数据以原始状态保存对快速恢复来说非常重要。并非有所的post-processing的处理方式都完全相同。有些是尽可能地确保更多本地数据可用,有些则是保存备份流程的最新数据版本。不管怎样,对重复删除数据的恢复的确是存在一些性能问题,但是与备份相同,确保环境中没有其他可能引发更大问题的瓶颈。网络、服务器快速接收数据的能力、恢复流程中所有RAID校验数据的重写要求等等,都只说明了一个简单的事实,那就是写入要慢于读取。

如果速度是如此重要的话,那么就应该考虑选择其他像持续数据保护(CDP)这样以实际原始格式进行数据保存的解决方案。大多数这样的解决方案允许你从数据的备份副本启动进入系统,消除了从恢复流程中的数据传输。

灾难恢复

正如前面所说,post-processing一个最大优点就是可以在数据写入以及备份完成之后进行重复数据删除。post-processing不那么依赖于处理能力,但是它却带来了一些在灾难恢复处理方面的挑战。Post-processing流程必须在备份数据复制完成之后进行,取决于系统架构和数据量,这就需要耗费很长的时间。虽然没有几家厂商报告他们post-processing的重复数据删除时间是多少,但是我们估计大约为每TB数据需要1到3个小时,数据量的不同时间也有很大差异。

这里一个重要的测量标准就是post-processing对灾难恢复复制窗口的影响。如果要求在一个设定窗口中将数据传输到离线站点中,那么你也许没有足够的时间来完成备份工作、运行重复数据删除流程、然后复制数据。如果离线保护很重要的话,那么缩减的复制时间就迫使用户具有很高的带宽。

即使没有一个需要进行灾难恢复的设置窗口,你自己也是希望能够在下一次备份完成之前更好地完成工作。如果你花了7个小时来备份10TB的数据,那么接下来就要化15个小时来分析和重复删除这些数据(假设重复数据删除过程每小时处理1.5TB数据),最后你只剩下2个小时来启动下一个备份窗口将所有数据复制到远程站点中。而且如果用户无法正常发送数据的话,你甚至没有时间对其进行纠错。

在inline处理过程中,数据进入应用的时候就启动了复制流程,这样即使备份窗口所需的时间翻倍,因为你开始复制较早,所有你的净备份处理速度实际上更快一些。虽然这也许不是你作出决策时考虑的唯一因素,但确实需要你认真考虑。

重复数据删除并非首要需求

重复数据删除并不是所有解决方案的重点。根据你的环境来说,现在容量问题可能更重要一些,还有能源管理存储、数据保留、紧密的磁带集成以及通过iSCSI从备份副本中启动等等。所有这些都可能是关键因素,如果你的数据中心存在这些因素,你就必须谨慎地考虑。

总结

当你在inline以及post-processing中作选择的时候,了解你需要怎样的备份性能、你能够提供怎样的备份性能、你需要在多短时间内创建备份数据的灾难恢复副本、以及是否有其他因素比重复数据删除更重要等等这样问题都是非常重要的。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章