科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道非结构化数据激增下的集群存储机会

非结构化数据激增下的集群存储机会

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

云时代的特征可以从很多方面来进行归纳,就如同哈姆雷特一样,一千个人就会有一千种想法,而今天,我们要着眼的方向就显得略为生僻,我们将从数据类型的角度来分析云时代我们的存储特征。

来源:论坛 2011年7月13日

关键字: 集群 NAS 非结构化数据

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

云时代的特征可以从很多方面来进行归纳,就如同哈姆雷特一样,一千个人就会有一千种想法,而今天,我们要着眼的方向就显得略为生僻,我们将从数据类型的角度来分析云时代我们的存储特征。

一提到数据,不少人脑海里马上就会蹦出一个词儿——数据库,这个词儿能有如此高的知名度,完全得益于此前结构化数据在数据管理中的统治地位与人们对于其的重视。的确,在过去相当长的时期内,企业是数据制造的主体,而对于企业来讲,存在于数据库,应用于ERP、CRM等系统的结构化数据无疑是最为重要的部分。而现在,随着云时代的普及与信息制造主体的转变,非结构化数据的管理日益成为业界热点,并且即使在企业内,非结构化数据的管理也逐渐成为了IT部门的重点课题。

激增的非结构化数据

据IDC的报告显示,现在全球数据量每18个月就要翻一番,每年全球产生的数据量已经高达40EB(1EB=1000PB)。而这些疯狂增长的数据主要来自非结构化数据。非结构化数据是相对于结构化数据而言,结构化数据主要是指那些数字的或能用统一的结构来表示的数据,如存储在数据库中的数据,这些数据基本上是以块(Block)的形式呈现。而非结构化数据是指那些无法用数字或统一的结构来表示的数据,像文本、图像、视频、音频、报表、网页等都是非结构化数据,它们大多以文件(File)的形式保存。

造成非结构化数据激增的原因主要有两个:一是云时代的到来使得数据创造的主题由企业逐渐转向用户个体,而个体所产生的绝大部分数据均为图片、文档、视频等非结构化数据;另一方面,信息化技术的普及使得企业更多的办公流程通过网络得以实现,以往纸质的表单、票据等现在都实现了数字化存档,而这方面产生的数据也以非结构化数据为主。

事实上,结构化数据成为主流早有征兆,2008年,基于文件的存储系统容量出货量就以微弱的优势首次超过了基于块的存储系统容量的出货量,而近几年,这一差距正在逐渐拉大,据Gartner预计,到2012年,基于文件的存储系统容量将占到总容量的70%。而IDC也同时预测,鉴于基于文件类型的非结构化数据的增速极快,到2012年,全球存储市场的总出货量中将有80%的容量被文件级数据所覆盖。

非结构化数据的特点

相对于业界一直重点关注的结构化数据,非结构化数据在产生、存储、使用上都有着不同的特点。

1、生产速度快

一条结构化数据的往往是Byte级别,而一次非结构化数据的增长量级往往在MB级别,两者在生产速度上的差别显而易见,反映在存储容量上的区隔同样明显,一个结构化数据库的级别大都在GB级别,如果一个结构化数据库达到TB级别就算超大规模,而对于类似影视制作等以结构化数据为主的企业来说,其所需要的存储空间往往有接近PB的规模。

结构化数据这一特点反映在对于存储设备的的需求便是大的存储空间与方便灵活的扩展。

2、文件级别的管理

与结构化数据使用的块级别存储不同的是,非结构化数据需要的是文件级别的存储技术。

在存储区域网络这种块级别存储架构中,主机直接通过SCSI或FC协议控制数据,而SAN存储设备无需完成文件的识别、管理等工作,这些工作都由主机来完成。

而面对非结构化数据,再采取这样的方式无疑会加大主机的压力,因此非结构化数据需要文件级的存储设备,如何去处理这样的需求呢,按照传统的方式我们通常有两种方法,一方面,我们可以很容易的利用Windows或者Linux的文件服务器再加上直连存储系统或者SAN存储系统来构建出一台文件服务器来存放非结构化数据;另一种方法就是使用传统的NAS设备,NAS是一个拥有自己文件系统的存储设备,通过NFS或CIFS协议实现文件级的传输,但是,传统的NAS往往受到扩展性方面的限制,纵向(Scale-Up)扩展的方式很难适应当今非结构化数据激增的现实。

3、共享需求

相比于结构化数据往往有专一的应用对象——数据库服务器而言,非结构化数据所要面对的客户端往往更加复杂与多样化,并且与数据库专机专用的特点不同,非结构化数据还会有共享的需求,这一点也决定了其与结构化数据在存储上的不同要求,后者更需要的是SAN这样的分配即占有的存储方式,而结构化数据更多的需要能够被多台设备共享的存储方式。

4、对吞吐率需求更高

结构化数据的访问是小数据大密集的方式,一次数据库的写入读出产生的数据量只有几Byte或者是几KB,但是他需要的是非常密集的访问,对于一个大型企业的数据库而言,其每秒的调用次数一般会达到几十数百次,因此对于数据库存储设备的考量指标是IOps,也就是一秒能够完成的I/O数量。而结构化数据不同,对于典型的结构化数据生产企业,如电影公司等而言,一个文件的规模非常大,往往是几百MB到GB的级别,一次读取时间很长,但并不密集,因此,一个好的非结构化数据存储架构将能够提供非常大的I/O吞吐量,也就是传输带宽。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章