科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道昆腾:重复数据删除在线应用还不够成熟

昆腾:重复数据删除在线应用还不够成熟

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

尽管今天单位存储空间的成本不断走低,但企业需要存储或者备份的数据量仍然在持续上涨,导致了企业在磁盘存储空间方面无止境的成本投入。

来源:IT168 2008年3月17日

关键字: NAS VTL 磁带 RAID 虚拟带库 重复数据删除 昆腾 磁带库

  • 评论
  • 分享微博
  • 分享邮件

  尽管今天单位存储空间的成本不断走低,但企业需要存储或者备份的数据量仍然在持续上涨,导致了企业在磁盘存储空间方面无止境的成本投入。是否能有一种技术或者解决方案能够10倍甚至20的缩减企业数据量,让磁盘备份在容量空间方面的成本能够被更多的企业承受呢?重复数据删除正是近期的一项热门技术,由于可以大幅压缩和删减用户需要备份的数据量,因此让用户和厂商都对此青睐有加。

  但是一旦深入到重复数据删除的采购,这些专家就没有更好的意见了。因为重复数据删除的很多供应商目前仅仅能够实现这项功能,而实现的具体方式则各有不同,适用于一家公司的重复数据删除解决方案,未必就适用于另外一家公司。昆腾资深技术顾问为大家深入解析重复数据删除的底层原理与应用。

  主持人:很多网友对性能很有顾虑,现在重复数据删除已经解决了这些问题,有一个网友的问题是比较具体的问题,那么作为一个DBA他比较关心重复数据删除和数据库之间的接口是如何完成的?

  王刚:重复数据删除实际上来讲,这个工作不是交给备份软件的备份的人员来做,重复数据删除提供给用户使用的时候就是一个VTL,或者说就是一个nas,原来对这个产品进行使用的时候,比如说当VTL来用的时候,当Nas用的时候,该怎么用就怎么用,只不过现在这个产品具有重复数据删除功能,当然对于其他一些数据库的话,一般来讲数据库在做备份的时候,一般来讲的话备份软件只提供一个API的调用接口,那么真正备份的工具是由数据库本身来做抽取数据,然后抓取数据流,这些数据流真正到VTL引擎里面的时候才去处理,这时候就把它看成一盘一盘的磁带,所以不管是前事处理还是后事处理,网友担心的是有道理,但是真正为用户用的时候,不要考虑这些技术细节,该怎么用就怎么用,只不过现在这个产品就是具有重复数据删除功能的VTL。

  主持人:还有一个问题,就是重复数据删除具体在使用的时候,因为现在我们也看到有一些厂商有一些在线的重复数据删除的技术,那么想问一下重复数据删除现在在线的这种应用模式,究竟是怎么样一个情况呢?

  王刚:现在有一些厂商它宣称已经把重复数据删除这个功能加到它的一级磁盘阵列技术里面,也就是在线的一些磁盘阵列上,那么就会发现,这实际上实现起来是比较困难的,还有一个就是工作原理也要搞得非常的清楚,那么我们设想一下,为什么现在重复数据删除一般都用在VTL,或者说叫二级的磁盘阵列上呢,因为是这么一个模式,第一个比如说我们的前事处理,数据进来的时候要不停的切割,切割完了以后,分割完了以后,识别出来以后我再存到磁盘阵列上,如果你把这个技术放到一级磁盘阵列的话,很不幸这一级磁盘阵列又对数据库并列访问的,那么这之间怎么协调,会不会有问题,一个IO还没有写完了的时候,又要读另外一个磁盘上的数据,这是很大的问题。那么这是前事处理。

  后事处理,VTL写在这个磁盘上,正在删除的时候,又有一个阵列过来读,是不是要等待,还是说等它把这部分数据处理完,还是什么模式,目前来讲有一小部分厂家宣称已经在一级阵列上能做到这个技术,但是我们也没有仔细查看到底工作原理是什么,但是据我所知,包括他们自己市场的一些宣称,他们自己也没有搞清楚,当这个模式下,真正的工作原理应该怎么做,所以我们现在看到更多的是把重复数据删除这个技术大部分用在VTL上,或者是后端上,不是经常读取的设备张,一般是这样的。

  主持人:现在重复数据删除在VTL上的应用比较广泛,其实重复数据删除刚出来的时候被认为有一个非常突出的意义的,包括它能够大幅度降低磁盘备份的成本,我们知道昆腾除了有VTL产品,还有磁带库存储,您认为这之间未来是什么发展趋势呢?

  王刚:这个问题很有意思,如果我是做虚拟带库的,那我一定说磁带没什么用了,磁带会消亡,虚拟带库以后一统天下,如果我做磁带库的话,我肯定说虚拟带库基本不可用,就是现在火一阵子,磁带还是以后的潮流,那么实际上这个问题我们要从两方面考虑,在分析的时候我们要看一下虚拟带库的优点,虚拟带库的优点比如说速度很快,恢复的时候可靠性高,这是什么原理保证的呢,底层批评成熟的技术,还有虚拟带库上比较独特的系统。那么由于这些提供,使得虚拟带库备份的窗口很短,甚至可以说比一些最高性能驱动器还要高一些。

  但是它恢复的可靠性,如果RAID不出问题,肯定是百分之百的,那么我们对比一下磁带会发现,当一个磁带是120兆每秒,他跑到80到100兆每秒是没有问题的,磁带在备份的时候有多个数据流,有多个驱动器同时对一个数据库进行写的时候是很快的,如果我们做恢复的时候,某一个磁带出小问题的时候,那么整个这一次备份级虽然备了三盘四盘磁带,但是可能由于某一盘磁带造成的问题,造成数据库打不开,或者是关键文件丢失了,所以磁带就是因为介质有时候不是很可靠,什么意思呢,前提条件就是经常读写这盘磁带使得磁带老化以后介质不高,导致恢复的时候就不敢说百分之百能恢复回来。

  而虚拟带库呢,虽然来讲它备份恢复基本上来讲只要RAID没坏它可以恢复,但是我们想磁盘还要做ED,它的可靠性和稳定性肯定不会比一级磁盘阵列还高,所以说这个产品文件还是24小时在线的,任何一个工程师都知道,24小时在线的设备有没有可能误删除,有没有可能电流异常,有没有可能这个设备坏了,这样的话24小时在线的设备就不能说可靠性是百分之百的,所以说这样子的话,有没有这样一种解决方式,就是前6个月或者是前一年,经常要查询,或者是恢复我把它放在虚拟带库上,领导或者IT主任让我恢复的时候,我肯定可以恢复回来,还有一个就是这个虚拟带库坏了以后,有没有一个物理带库,这样会有一个全备份的数据。物理带库敢拍着胸脯说这个数据敢恢复回来,物理磁带库经常读书,这个寿命会下降的。物理磁带库如果躲在虚拟磁带库下面,这样做备份方案的话,由于磁带不是经常的倒带或者定位的话,那么这个寿命反倒延长了,这个时候磁带备完了以后会离开驱动器,保管到真正的物理磁带库槽位上,这时候这个磁带是最安全的。

  所以说物理磁带库经常进行读写会发现一般过一年半以后,这个驱动器会有一些卡带和老化的现象,如果前面跟着一个虚拟带库,后面再躲一个真正物理带库的话,会发现物理带库总是可以延长使用寿命,所以这也是我们反复强调的,物理带库有物理带库存的工作模式和特点,有工作职责和范围,虚拟带库有工作特点,但是如果这两个配合工作的话,对用户来讲这个解决方案是最好的。

  主持人:根据您的观点,这个虚拟带库和磁带库是相互补充的关系?

  王刚:这要看怎么说,如果物理带库对国内工程师和国内用户来说的话,首先见到的是驱动器,槽位和带标,是很陌生的。那么有些用户在维护物理磁带库的时候,虽然这个磁带库很小,但是维护起来觉得力不从心,他甚至打开一个门把这个磁带取出来都很难,低端的磁带库的可靠性和高端没有办法比,所以说低端的磁带库使用两年以后,出现一些卡带也是很正常的,这个时候如果用户的维护稍微差一点,或者不懂的话,这个时候向他建议物理磁带库就不好了,这个时候如果为他选一些带重复数据删除或者没带重复数据删除,最好带远程复制的虚拟磁带库是比较合适的,因为他用过这些磁盘,他知道一些磁盘阵列的基本概念,那么基于Web浏览器这些管理界面,点一下鼠标就可以把这个变成物理磁带库,这时候他会觉得比较方便,说到这里的时候呢,对于这一类用户,也就是说对于物理磁带库维护起来比较犯难,但是对虚拟带库感觉还可以的时候,一般我们是建议他们最好选复制功能,就是虚拟磁带库不要在一个地方放一台虚拟磁带库,一般在总部,或者是别的地方再放一台虚拟磁带库,这虚拟磁带库的数据互相复制,这样的话即使本地的虚拟磁带库的数据丢掉的话,那么远程还有一份一模一样的数据,这样的话维护性,使用的易用性,安全性都提高到了用户比较认可的模式了。

  主持人:经过王先生刚才的讲解,我相信很多网友对重复数据删除都有了了解,而且很多网友对安全性的顾虑我们也都做了解释,重复数据删除本身就是一个很新的技术,存储界近年来也有很多新的技术,我们相信这些新的技术能够在最快的时间内得到应用,并且为用户带来实际价值,最后非常感谢王刚先生来到现场,为大家讲解这项技术。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章