科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道大平台巧战大数据

大平台巧战大数据

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

随着云时代的来临,大数据也吸引了越来越多的关注。虽然行业内都在谈论大数据,但是大家更注重的其实是大数据的价值,是一个企业真正要在大数据上做什么才能在这场挑战与风险并存的战争中获胜。应对大数据挑战,IBM推出存储平台来提高存储效率。

来源:ZDNet存储频道 2012年11月5日

关键字: IT名人堂 大数据 IBM 云计算 V7000 存储平台

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共4页)

2.应对:提高存储效率

视频速记如下:

主持人:您刚才提到,其实您刚才头两个问题有提到效率的问题,还有刚才尤其第二个问题,也提到了很多老的这种存储器继续使用的问题,这其实很容易让人想到,就是说这种可以以前都倡导很多年的,整合异构存储和老存储的存储虚拟化技术,那我们也看到了一个,前一阵子看到一个数字,就是说这种最有效率的数据中心里面,90%以上都使用了存储虚拟化的技术,所以我就两个困惑,就是说这个存储虚拟化技术,是指刚才咱们说的那种,可以整合异构存储的那种,比较狭义的存储虚拟化技术,还是比如说也包括其实像自动分层、自动配置,其实它也是一种存储的虚拟化,我不清楚这个就是说,它这90%以上的存储虚拟化,这个虚拟化的技术是怎么定义的。另外一个就是说就像咱们原来说的那种存储虚拟化技术,在云计算和大数据的时代,它还会扮演一个重要的角色吗?

嘉宾:好的,那首先我觉得现在的数据中心,可能超过90%以上,都会有存储虚拟化的技术在里面,那这个存储虚拟化一般是指广义的,而且存储虚拟化广义范围也可能分成两大层,一层是最基本的,就是说既然谈虚拟化,就是要把这些存储资源,像一个池资源一样虚拟化掉,不是说你的服务器应用,就是服务器要用存储的时候,还要像以前一样,去使用一个物理设备,去找这个物理设备的驱动程序是什么,我怎么样才能够用它,这些都不需要的,这是最基本的。有了这些基本以后,你可以在这个虚拟池里面做虚拟资源很好的重新的调用分配,在这个分配之上,还有一些更进一步的虚拟化,你说我不需要人去管它,它可能像您说的自动分层,自动做一些数据的压缩或者是消亡处理等等都可以,那么这个是在基础上做的。我们觉得,在现在的数据中心里面运作,最基本一层的存储虚拟化,可能已经是一个必不可少的,包括在以后的云计算,因为云计算的环境有可能是复杂度还会超出一个数据中心的范围,它可能会有多个不同的点或者数据中心。那么在这个里面,其实我们很简单想象也是,比如说我们现在在X86平台上大量的应用VMware或者KVM环境,但是当你去用一个VMware下面的服务器镜像的时候,几乎没有人再去关心,我这个后台的服务存储是从哪来的,这个硬盘可靠不可靠,这个转速能不能达到我的要求,你不用去想,这个转速达不达得到,而是说你可能对这个基础平台的选择,我们要一个高性能的存储,从这一点角度来讲的话,存储虚拟化可能是一个必不可少的一个技术,因为就像现在服务器的计算资源也被虚拟化一样,这是必须相符合的。在这方面,我觉得在以后的云存储和大数据环境下,这种虚拟化的利用的深度、广度只会比现有的数据中心更多,而不是减少。

主持人:那其实另外一个呢,就是大数据咱们看把这个大字放在最前头,其实有各种数据也表明,其实数据量增长的速度,其实是比物理存储增长的速度要更快一些,那实际上大家就是,所以刚才你也提到,我们要提高存储的效率,其实也包括这种容量的效率,一方面可能就是说有这种自动配置这样的技术,那另外一种就是同样多的数据,让它少占点空间,可能一种是重复数据删除,但是重复数据删除好像到目前为止来说,还是不太适合于主存储里面,所以我们知道有(实时压缩)的技术,但是这个大家想,压缩多少都会损失一点性能,所以我们也看到一些数据,显示好像这个压缩了,(实时压缩)不但不会影响性能,可能在某种情况下,还能把性能或者响应时间提高,这个我觉得可能就是,不一定大家都能理解得了,所以想您看看这方面,这个技术是怎样的一种实现。

嘉宾:那好的,这一块的话,其实您刚才说了很多,涉及的面也比较广,那现在从最基本的压缩,现在普及度来看,其实压缩普及,已经不是一个问题,而是一个实际情况,每个人都拿数码相机拍照,就在用压缩存储,极少发烧友可能存的未压缩那个格式。那么另外一块的话,如果讲到压缩的性能的话,如果不是存储,讲到网络的话,大家都会有感觉,你把你的大文件压缩一下发给我,这样更快一些,也就是说你在传输的时候压缩以后,它因为要传的数据字节少了,所以这个速度提高了,那么接下来会有一个问题,特别是对原来接触存储技术层面,相对于比较少的观众会问,为什么到了存储,这个压缩照理说网络压缩以后,对,它要处理数据少,就快了,到你存储这里压缩,你反而变慢了,是不是你这个压缩算法,在控制器上很耗时间的话,但是如果这样的话,为什么用网络的控制器就不那个,所以的话这里面其实稍做一个解释,是说因为我们的做对存储做压缩,不是指一个简单的数据来多少,我把多少数据压缩完就结束的一个过程,它往往是指说这个磁盘卷,大家可能习惯用一个F盘,这个F盘现在开始就是只压缩卷,那么压缩卷以后,它不仅是一次性的,你一般不会说我写一次以后再不用了,如果你写一次再也不用的话,你的压缩性能,仅表现在它有和没有的时候,你的第一次写入时候的区别,这种区别现在可能已经比较小了,因为现在做硬件压缩的芯片也很快,硬件压缩不复杂,为什么以前来说,这个F压缩盘会很慢,这个原因主要在这里,就是说当你把这个F盘上的每一个块都做成压缩块以后,它以后有一些数据更改要产生的时候,它要做很多额外的动作和不压缩盘相比,额外的动作是指,它要更改一个文件,这个文件可能有20兆,分布在10个数据块上,随便讲,举一个例子,那么这20兆你要改可能只是改10个字节,那10个字节的话,或者说改3个10个字节,那么这个时候,你的后台程序要分别到原来压缩块,把原来的块全部调到控制器的内存里面去解包,不解包它没法更改,解包以后,再把你要做的更改三个部分,写到三个地方,然后这三个东西再重新压缩打包,万一打包块比原来块大的话,还要再重新消减一下,再放回去,那可以看到的话,当然我们在操作F盘压缩卷的时候,它比不压缩卷产生了很多额外的工作量,而且这个很多工作量,不仅是算法执行,还有IO,就是不断在读这个磁盘,写这个磁盘,那么这个时候,就造成,因为IO的话,如果IO多的话,这个机器结构决定了它不可能特别的怎么样,即使你换成CD的话,CD写入也不是特别快,那么所以在这种情况下,就看压缩F盘的速度,和不压缩的是完全不能够对等的,所以我们一般就做备份还可以,现在IBM在ICBC和V7000上所用的所谓的实时压缩技术,主要还不是说在压缩算法上做了一个特别大的改进,因为原来的问题也没有出在压缩算法上,而是出在频繁的你对压缩卷的存取上,其实因为今天时间和条件关系,没有办法显示,其实讲简单一些,它是通过一个后台的比较虚拟化的指针系统,它有很多很多虚拟化的指针,指着这些数据块,当你说你要对某一个压缩块做更改时候,它首先它可能在第一时间它不去读真正的压缩块,而只是在虚拟指针上,做一些指针的改动,让你新的更新部分直接就存下去,暂时先不去更改,而原来的压缩块里面已经被覆盖部分,可能指针作为一个标识,你就覆盖以后,以后我再找一个机会,把它抹平,但是覆盖部分也不用说,在你重新,在刚才写入的时候像我们说那样,要调出来解压,这些动作都不需要了,有点像一个完整的新盘一样,你要有更改进去的话,你只是把更改放进去,它就存下来,但是他或者指真的再做很多重新的映射,那么这些指针的映射带来的额外的IO的压力是很小的,所以通过这种方式,其实后台也是一个,可以说一个微观的虚拟化的方式,来实现了实时的压缩。

主持人:那也就是说,照您说的,就是说先把一个指针指到别的地方,然后就先不管它,那后来是不是还是要去做除以更改或者这些合并。

嘉宾:它是这样的,我们假设它做完这一次更改,假设这个盘以后再也不用了,那么如果再也不用的话,它基本也再不做什么处理了,因为你下次说我要读这个更改后的文件,这些指针自然知道哪些块是构成完整文件的块,它自然会把它搜索出来给你的。但是一般情况不会说再也不用了,可能还在持续的使用,那这时候,它其实会做一个后面的数据的这些压缩块的洗刷,或者说整合的工作,就是说今后如果那个压缩块又被调到缓存里面,因为一些别的原因,比如说它被访问到了或者被读到了,它会借这个机会,把原来的数据彻底从数据块里面扔掉,扔掉以后把这个数据块新再整理一下,或者是放新的有用的东西进去,或者怎么样,再变成一个完整的东西放下去,这样处理是避免说因为刚才我们讲,你老的里面有些东西不要,其实变成一个空洞,你要是老是不去清,这个空洞就越来越多,访问效率也下来,空间可能也不是那么好。所以通过一系列的后续的算法,再去不断的去完善,但是基本是利用一些比较自然的手段,不需要说我们有些压缩,有一个后处理,你要安排一个时间,我大概晚上什么时候做,那都没有,那是利用后续的IO自然而然去完成这些。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章