科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道展望信息保留趋势 IBM洞悉重复数据删除本质

展望信息保留趋势 IBM洞悉重复数据删除本质

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

从全球知名调研机构lnfoPro去年对全球1000多家企业IT经理对未来存储技术的调查中不难看出,大家纷纷对重复数据删除和虚拟带库展现了极大的关注,特别是重复数据删除技术,被业界列为十大存储热门技术之一。

来源:STOR-AGE.COM 2008年10月21日

关键字: 存储管理 IaaS 重复数据删除

  • 评论
  • 分享微博
  • 分享邮件

随着新一轮信息洪流滚滚而来,我们不难发现两大显著特征跃然眼前,一方面信息的高速增长给企业带来了无穷无尽的管理难题,存储需求的骤增、IT预算的紧缩、电费的不断攀升以及数据中心占地等等问题迫使企业开始慎重考虑信息保留问题,哪些数据需要保留、如何有效地保留,如何高性价比地保留;另一方面,数据内容上也发生了很大改变,从以往传统的在线交易处理数据,到如今的非结构数据遍布,以往的备份方式明显无力招架,如何运用新兴技术真正实施全新的备份策略已成为IT管理者不得不思考的头等大事。根据调查显示,用户对存储系统的期望主要集中在:第一,如何管理和存储不断攀升的数据;第二,怎样更好地预测和规划,第三,如何更有效地备份。

在这种需求的推动之下,各种信息保留工具应用而生,令用户眼花缭乱,难辨本质,特别是近来大热的重复数据删除技术。从全球知名调研机构lnfoPro去年对全球1000多家企业IT经理对未来存储技术的调查中不难看出,大家纷纷对重复数据删除和虚拟带库展现了极大的关注,特别是重复数据删除技术,被业界列为十大存储热门技术之一。但在这些耀眼光环背后,客户往往更加迷茫,究竟实施重复数据的删除目的何在?又需要注意些什么?哪些方式可以实现重复数据的删除?利弊几何?如何运用这以技术真正改变数据备份现状?……让我们先从数据备份现状看起:
  
重复数据删除的4大考量重点

通常情况下,从数据备份的周期来看,白天客户在做在线处理,做生产;晚上,将数据备份到虚拟带库或物理带库等介质上,第二天把这个介质通过物理的方法(如:车载运输)运到一个安全的地方,这是一个完整的备份,期间当然还要满足法规遵从的需求。然而随着现在信息量越来越大,晚上做备份数据量也越来越大,再加上7×24小时业务响应的压力,大部分客户已经感到没有充足的数据窗口来满足备份需求,IT经理面临着巨大的困境。现在新的重复数据删除技术优势在于把数据量进行大规模的压缩,压缩完以后,数据备份量会变得很小,这样在非常小的备份窗口里面就可实现完整的备份方案。

因此,从整体重复数据删除市场来讲,客户存在以下四个方面的需求:第一,毋庸置疑是对性能的需要,因为数据在增长,客户的备份窗口,性能是重复数据删除最为关键的一环;第二,是扩展能力,该方案有没有可能为大的数据容量进行处理;第三,是数据一致性,信息资产的宝贵不言而喻,企业务必要采取精准的算法避免一切误删除;最后,是如何在不中断服务的前提下进行数据删除。

IBM这次通过全新企业架构策略的发布,希望在信息保留方面,能够利用优势技术、成熟的产品和端到端的服务为客户提供更加优化、更加有效的层次存储的架构;同时利用业界领先的重复数据删除技术,帮助客户更好地备份和归档,从而实现以更少的存储设备保存更多的数据这一最终目的。

基于这一目标,此次发布的重复数据删除新品IBM System Storage™ TS7650G ProtecTIER,对以上四个方面都做出了完美的响应:第一,性能方面,TS7650G实现了目前整个市场上最快的速度,其单节点的吞吐能力在现实应用中已可达到450MB/秒,在双节点集群中可达到900MB/秒,足以满足在线备份删除的需要;第二,扩展能力,由于该产品的压缩比可高达25:1,在某些特定应用下,甚至可达30:1,因此极大的减少了客户对物理存储的需求,同时可以帮助客户保存更多的数据,一般厂商的处理级别只在100TB左右,而该方案最大的特点正是可处理PB级的存储,完全可以满足大型企业客户的支持;第三,数据的一致性,通过附加的二进制校验机制,该方案能够保证在整个的备份删除过程,数据100%一致;最后非中断,由于采用了在线处理的方式,免去了一般重复数据删除技术的二次处理过程,客户可以在完全不中断业务的同时进行数据删除。

慧眼辨析Post Processing和Inline Processing

需求明确之后,要想进一步选择适合的方式,就必须了解其实现过程。目前重复数据删除在市场上有两种技术,一种是Post Processing(后处理),另一种是Inline Processing(在线处理)。后处理,首先通过把完整的数据1:1备份到存储设备上,等所有数据全部备份成功,在一个固定时间,进行批处理把它压缩,实现重复数据的删除;而在线处理,在接收到备份数据的同时,就进行重复数据的删除,把删除后的结果存到后端设备上。

其实两种方式是伴随着重复数据删除技术的不断成熟而逐渐出现的,早期,市场上还未出现一种合适的算法可以满足性能和重复数据删除两方面的需求,因此后处理方式大行其道,然而这毕竟是一种删除性能无法和生产系统性能相匹配情况下的折中选择,在面对数据量不大的备份尚且可行,当数据量过大后,其长时间的备份窗口将领客户不堪重负;此外,由于后处理把数据删除跟生产系统完全分开,因此需要有一个单独的处理系统来完成,即要求第二过程,所以导致用户数据很难做到连续访问,而且由于虚拟带库不断运转,也很难完成把虚拟带库的数据离线克隆到磁带等二级存储设备上。

反观在线处理则很好地化解了这些难题,这是一个实时的处理过程,当生产系统有备份数据传输过来就即时进行重复数据的删除以及数据压缩,完成后转成适合虚拟带库的格式,存在磁盘或磁带上,不但比后处理方式要简单,而且更加有效,同时也不需要安排人员进行后端的删除,可以减少整个备份系统的成本。

虽然在线处理更优,但从技术特征的角度,也要比后处理方式来的更复杂,要求厂商在提供技术和解决方案的同时,能够有完整的测试,另外技术本身的算法也要特别优秀。而这也正是IBM收购Diligent公司的缘由,Diligent创新的在线处理技术在整个业界可谓独一无二;另外其重复数据删除的算法在整个业界是最精准的,可在满足客户压缩需求的同时又不影响系统性能。目前Diligent主要有两大产品,一个是存储虚拟磁带库的软件产品ProtecTIER,另外一个是专门做重复数据删除的HyperFactor。目前Diligent在全球已有500多套的装机量,财富500强企业有300多个客户采用,在电信行业,美国前十大电信运营商已有五家采用Diligent技术。

Diligent优势尽显 

深究其技术本质,我们发现其实Diligent仅用两步就实现了性能的卓越提升和数据的100%一致,这两大创新科技智慧正是:缓存驻留索引和专利精简算法。

· 颠覆性的缓存驻留索引模式:

一般常见的重复数据删除后处理方式,是把索引存储在磁盘里面,反复读取磁盘,如此一来性能很难保证;而Diligent技术是在备份任务进来后,首先把数据读到服务器的缓存里,索引即驻留在缓存内,并且可压缩成非常小的索引,索引比高达250000:1,因此也保证了不会给缓存带来很大的压力,这也是其可实现高性能的一个前提。下一步,以极快的速度去计算索引,在内存里面做索引比较,比较结果相同时,会再度进行二进制比较,从而确实保证数据一致性;这样一来既可以保证很高的速度,同时可以保证数据确实是100%一致的,不会有误删除的现象。

· 专利精简算法避免哈希冲突

目前其他重复数据删除厂商主要采用哈希算法(Hashing Algorithms)这种比较方式来进行重复数据的比较。通过复杂的哈希算法计算出一个8K的索引值,再通过该索引值进行比较是不是相同,一旦相同,就认为数据相同,不再存储。但是这种哈希算法毕竟是一种算法,存在所谓的哈希冲突,也就说有可能两个数据虽然完全不同,但计算出的哈希值是一模一样的。在这种情况下,盘阵里面也会把数据认为是重复的数据,予以自动删除。介于这一弊端,IBM完全不采用这种算法,而是采用自己的专利精简算法,当有新的备份数据读入时,在内存里先把特征值进行定位,然后跟内存做比较,因为做内存的运算其实是非常快的,通过内存进行比较以后,如果一旦有相似的特征值的时候,再去从磁盘把相关的值读出来,真正做一次二进制比较,确保数据不会有误删除的现象。通过这种计算差异以后,再把新的数据,通过2:1的LZH标准压缩格式存。一方面性能更高,同时可靠性比哈希算法更强,不会出现任何冲突。

备份本质变革推进新技术前行

比较起在线处理和后处理的两种重复数据删除方式,不免要放到整体数据备份市场之中来看;目前美国的数据增长分为两部分,一部分是on site,一部分是off site。所谓on site就是每天在线处理的生产数据,而off site则涉及到备份,因为美国企业的数据要遵循相关的法律法规需要进行备份,而在美国,这两部分的数据增长是相差无几的;尽管目前在中国,数据增长比较高的是在on site,但另一方面我们也看到,中国目前正在参照很多美国的法案对企业进行规范操作要求,比如史上处罚最严厉的上市公司法案-美国萨班斯法案规定,如果CEO/CIO提供不实财务报表,将会面临10到20年的监禁,以及100万到500万美元的罚款,按刑期而论,其严重性和持枪抢劫相当。如今,“中国萨班斯”——《企业内部控制基本规范》将于2009年7月1日起在上市公司范围内正式施行,这些法规的上马无疑将对off site部分的数据备份带来前所未有的压力,如何设定满足on site和off site双方面数据增长需求的备份策略,IT经理人们不得不趁早谋划。

另外,从备份的发展来看,由于全量备份时间较长,因此目前企业通常采用每月初或每周初进行一次全量备份,配以数次的增量备份方式。但由于增量备份恢复时间比较慢,要追溯到很远的基础数据,因此并不能成为企业最为理想的选择。再加上由于最初需要进行备份的数据主要是以在线交易处理为主的单纯数据,备份数据量不是很大,可以进行增量备份;然而如今非结构化的数据日益攀升,根据IDC报告,当今世界结构化数据的增长率大概是32%,而非结构化数据的增长已达到近两倍(63%),最明显的例子是E-mail,收到别人发来的一封电子邮件,随即转发,备份的时候并不是增量备份,而是所有邮件的附件都会重新备份。随着video等新兴媒体的崛起,非结构化数据备份的压力会越来越沉重,因此增量备份的方式显然对于非结构化数据而言就变得不是特别有效了。

如今,IBM带来可在线处理大容量数据的精准重复数据删除技术,不但可以满足快速备份的需求,大大化解了备份的时间问题,更可以满足企业级数据可靠性的要求,无疑为企业在今后考虑整体备份策略上提供了更为广泛的选择余地。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章