科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道大数据与存储系统:分散还是集中的选择?

大数据与存储系统:分散还是集中的选择?

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

让我们来设想一下:一边是相对昂贵的集群NAS;另一边则是成本低廉,但硬件上几乎不具备任何容错能力(在HDFS软件层面实现数据冗余)的JBOD + SATA硬盘。如果都能够满足应用的要求,您会选择哪一种呢?

作者:黄亮 来源:CBSi企业解决方案中心【原创】 2011年5月20日

关键字: Greenplum HDFS Isilon Hadoop

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

“当云遇见大数据”是EMC World 2011大会的主题,近日我的耳朵已经快被“大数据”这个词磨出茧子了,不知您怎么样?

从笔者上一篇“单芯片16Gb FC+10GbE:加速融合网络过渡”完全不谈云计算和大数据,再到本文的确经历了一个有意思的转变,可以说编译自国外同行的“Hadoop用户需要企业级存储吗?”讲出了我们的心声。

大数据、数据分析与Hadoop分布式文件系统

从去年EMC收购Greenplum和Isilon开始,就不断将数据仓库/大型数据分析(相对于传统OLTP应用处理的数据规模而言),以及带有横向扩展(Scale-out)特性的集群NAS存储系统放在“大数据”这个概念下一起谈。可以说二者之间确实有一些共性,比如Greenplum能够支持的数据量 vs. Isilon超过10PB(最近提升至15.5PB)的单一命名空间;还有在应用和存储角度都强调高带宽,当然一方面是需求,另一方面则是提供。

然而,我们看到“EMC World 2011拥抱开源”这篇文章在2页中谈论了两个相对独立的话题,而不再是将Greenplum和Isilon笼统的罩在“大数据”下面。其中的缘由就是Hadoop——EMC 的Greenplum部门推出了自有的Hadoop 全开源社区版和增强型的企业版软件。这些软件将安装至Greenplum HD数据计算设备(Data Computing Appliance),该设备在JBOD配置中使用了SATA硬盘。

大数据与存储系统:分散还是集中的选择?

Greenplum HD = Greenplum DCA + Hadoop

笔者第一次在采访中听到Hadoop这个词,是去年底于上海采访IBM SVC的用户盛大在线CTO朱敬,其中谈到了盛大在线自主研发分布式文件系统的计划。由于朱敬先生之前在美国雅虎工作的背景,因此他表示这部分“是用雅虎开源出来的Hadoop分布式存储和分布式计算的一个技术,我们现在是基于这个技术做分布式存储的开发。”

关于Hadoop、HDFS相关的技术细节我们在此不做深入讨论,简述其优势——即除了在分布式PC/服务器集群中的每个节点上都可以处理计算和存储工作之外,最大的好处就是降低总体拥有成本(TCO)。请大家再看看下面这段话:

“要获得Web 2.0架构所带来的全部益处,企业可能必须为协调应用而采用整个Web 2.0工具包和设计模型。Hadoop分布式文件系统(HDFS)设计用于将数据分布在多个节点,以便它在发生节点故障时不出现数据丢失,甚至是数据可用性失效的问题,仍能正常运作。这就使得Web 2.0网站运营者可利用具有低廉的SATA JBOD节点的大型集群储存数据,并以很低的每GB成本进行处理。”

让我们来设想一下:一边是相对昂贵的集群NAS;另一边则是成本低廉,但硬件上几乎不具备任何容错能力(在HDFS软件层面实现数据冗余)的JBOD + SATA硬盘。如果都能够满足应用的要求,您会选择哪一种呢?


大数据与存储系统:分散还是集中的选择?

资料来自:上个月在北京举行的IDF2011技术课程“云存储解决方案设计”演讲稿

上图旨在说明针对不同应用的使用模式来决定存储解决方案(注:里面的观点笔者不完全赞同)。其中纵轴代表性能,向上偏重于小规模随机存储操作,向下则为大规模顺序访问,这里面有些应该是相对而言。

其实最底下“备份与归档”确实符合刚提到的访问特性,但该类应用对性能的要求显然没有“高性能计算”苛刻;一些对象(目标)存储产品,比如EMC Centera这样的CAS(内容寻址存储)面向的就是归档市场,戴尔DX对象存储目前也主要针对PACS(医疗影像存档系统)应用;另外HPC现在使用pNFS(并行NFS,接近于一种集群NAS的标准吧)似乎还比较少,而实施较多的Lustre文件系统则具有一定的对象存储特性。

值得注意的是:Intel在这里将以Hadoop为代表的“大型分析工具”作为一个单独的分类,那么我们看看对应的推荐解决方案是什么样的?

大数据与存储系统:分散还是集中的选择?

Xeon E5是Intel尚未发布的下一代服务器平台,那么上面的“Hadoop存储模式”带有一定的前瞻和不确定性。我们曾经提到过至强E5平台集成了RAID与SAS功能,由代号为“Patsburg”的PCH芯片组引出12条SATA连接(其中包括SAS控制器提供的)到服务器内部的硬盘,现实情况也可以是PCH集成的8端口6Gb/s SAS控制器,向外经过JBOD扩展柜中的SAS扩展器(Expander)连接数量更多的硬盘。必要时还可以添加LSI等第三方厂商的HBA或者RAID卡。

在上层靠近“存储应用/操作系统”的位置,Intel建议使用Windows或者Linux中的软件来实现RAID功能。当然根据具体不同的RAID代码,也可以利用到Intel从Xeon C5500/3500系列CPU开始加入的硬件XOR/P+Q运算加速等特性。

根据我们的理解:Hadoop其实可以不需要RAID,每一块硬盘中存储的文件对象,都在不同的服务器节点中保存有至少一份副本,因此无论是单块硬盘损坏还是整个节点离线,都可以基本保证数据的完整性和可恢复性。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章