科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道重复数据删除:从边缘到主流

重复数据删除:从边缘到主流

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

几年前,重复数据删除(Data Deduplication)还被认为是存储领域的一个边缘技术。但在2009年,由于很多企业受经济不景气的影响而削减IT开支,重复数据删除因为能帮助企业大幅降低成本而大受欢迎。

作者:邢小萍 来源:CNW.com.cn 2009年12月23日

关键字: In-line Post-processing Data Domain 重复数据删除

  • 评论
  • 分享微博
  • 分享邮件

几年前,重复数据删除(Data Deduplication)还被认为是存储领域的一个边缘技术。但在2009年,由于很多企业受经济不景气的影响而削减IT开支,重复数据删除因为能帮助企业大幅降低成本而大受欢迎。

重复数据删除(Data Deduplication)是一种数据缩减技术,旨在减少存储系统中使用的存储容量。全球知名调研机构lnfoPro对全球1000多家企业的IT经理做过一项调查,多数受访者都对重复数据删除和虚拟带库表现了极大的关注。特别是重复数据删除技术,被业界列为十大存储热门技术之一。

存储厂商们也纷纷通过收购或OEM等手段,在产品中添加重复数据删除功能。比如,不久之前,EMC高价与NetApp竞购Data Domain,最终以21亿美元成功收购Data Domain.这一举动实际上向市场传递了一个信号,即:重复数据删除作为数据存储优化的一个技术,将成为未来的一大发展趋势。此前,EMC已收购了Avamar,IBM则收购了Diligent来扩充自己在重复数据删除产品线。

依据数据处理方式的不同,重复数据删除技术可分成两种:其一是在线处理(In-line),Data Domain就是这一技术的代表厂商。这一方式中,数据在读进来之后,当存到磁盘之前就已经进行了重复数据删除;其二是以昆腾作为代表的后处理(Post-Processing)。采用这一方式的话,数据在存到磁盘上后才会进行重复数据删除,在存到磁盘前,数据没有减少。

这两种方式各有优缺点:In-line的优势是节省了磁盘空间,同时重复数据删除一步到位,特别简单。但缺点是对CPU的损耗非常大,会占用大量CPU资源,导致性能下降。相比之下,Post-Processing对CPU的占用会小很多,但缺陷在于重复数据删除的环节会比较复杂。

在这两种处理方式的基础上,现在还出现了一种适应性重复数据删除技术(Adaptative Data Deduplication)。这一方式结合了之前两种方式的优点,在性能要求比较低的环境下采用In-line方式,性能要求比较高的时候则采用Post-Processing的方式。

如果从重复数据删除发生的位置来看,则可以分为基于主机的;基于备份的;基于主存储的重复数据删除等。就目前来看,Avamar的技术主要是基于主机的重复数据删除,Data Domain是基于备份的重复数据删除,国外一些新兴厂商Ocarina以及Storwise则致力于基于主存储的数据删除。

国内存储厂商SOUL在重复数据删除方面也有独到之处,其基于Storage-On-Chip平台的嵌入式芯片级的连线重复数据删除技术,具有高效率、低能耗等优势,使重复数据删除在主存储中的应用变成可能。此前,业界通常认为,重复数据删除过程会使系统性能有所衰减,所以更适合于二、三级存储。应该更多地被应用于备份和归档中,而非主存储。

对于用户来说,他们在选择重复数据删除相关的产品或解决方案时,有哪些注意事项?对此,ESG中国区总经理王丛的建议是:最终用户应该先弄清楚自己的重复数据在哪里发生的最多,再决定是不是在那个位置来进行重复数据删除。她举了两个例子来作为说明。比如银行,虽然每天有很多用户,会发生很多次交易,但这些交易都是一次性的,因此就不应该在主存储上来做重复数据删除。假如是在一个企业内部,发件人给所有员工发了一封带附件的邮件,这些数据都是存储在主机上,这种情况下可以采用基于主机的重复数据删除。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章