至顶网›存储频道 ›大数据与存储系统：分散还是集中的选择？

大数据与存储系统：分散还是集中的选择？

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

让我们来设想一下：一边是相对昂贵的集群NAS；另一边则是成本低廉，但硬件上几乎不具备任何容错能力（在HDFS软件层面实现数据冗余）的JBOD + SATA硬盘。如果都能够满足应用的要求，您会选择哪一种呢？

作者：黄亮来源：CBSi企业解决方案中心【原创】 2011年5月20日

关键字： Greenplum HDFS Isilon Hadoop

在本页阅读全文(共2页)

“当云遇见大数据”是EMC World 2011大会的主题，近日我的耳朵已经快被“大数据”这个词磨出茧子了，不知您怎么样？

从笔者上一篇“单芯片16Gb FC+10GbE：加速融合网络过渡”完全不谈云计算和大数据，再到本文的确经历了一个有意思的转变，可以说编译自国外同行的“Hadoop用户需要企业级存储吗？”讲出了我们的心声。

大数据、数据分析与Hadoop分布式文件系统

从去年EMC收购Greenplum和Isilon开始，就不断将数据仓库/大型数据分析（相对于传统OLTP应用处理的数据规模而言），以及带有横向扩展（Scale-out）特性的集群NAS存储系统放在“大数据”这个概念下一起谈。可以说二者之间确实有一些共性，比如Greenplum能够支持的数据量 vs. Isilon超过10PB（最近提升至15.5PB）的单一命名空间；还有在应用和存储角度都强调高带宽，当然一方面是需求，另一方面则是提供。

然而，我们看到“EMC World 2011拥抱开源”这篇文章在2页中谈论了两个相对独立的话题，而不再是将Greenplum和Isilon笼统的罩在“大数据”下面。其中的缘由就是Hadoop——EMC 的Greenplum部门推出了自有的Hadoop 全开源社区版和增强型的企业版软件。这些软件将安装至Greenplum HD数据计算设备（Data Computing Appliance），该设备在JBOD配置中使用了SATA硬盘。

大数据与存储系统：分散还是集中的选择？

Greenplum HD = Greenplum DCA + Hadoop

笔者第一次在采访中听到Hadoop这个词，是去年底于上海采访IBM SVC的用户盛大在线CTO朱敬，其中谈到了盛大在线自主研发分布式文件系统的计划。由于朱敬先生之前在美国雅虎工作的背景，因此他表示这部分“是用雅虎开源出来的Hadoop分布式存储和分布式计算的一个技术，我们现在是基于这个技术做分布式存储的开发。”

关于Hadoop、HDFS相关的技术细节我们在此不做深入讨论，简述其优势——即除了在分布式PC/服务器集群中的每个节点上都可以处理计算和存储工作之外，最大的好处就是降低总体拥有成本（TCO）。请大家再看看下面这段话：

“要获得Web 2.0架构所带来的全部益处，企业可能必须为协调应用而采用整个Web 2.0工具包和设计模型。Hadoop分布式文件系统（HDFS）设计用于将数据分布在多个节点，以便它在发生节点故障时不出现数据丢失，甚至是数据可用性失效的问题，仍能正常运作。这就使得Web 2.0网站运营者可利用具有低廉的SATA JBOD节点的大型集群储存数据，并以很低的每GB成本进行处理。”

大数据与存储系统：分散还是集中的选择？

资料来自：上个月在北京举行的IDF2011技术课程“云存储解决方案设计”演讲稿

上图旨在说明针对不同应用的使用模式来决定存储解决方案（注：里面的观点笔者不完全赞同）。其中纵轴代表性能，向上偏重于小规模随机存储操作，向下则为大规模顺序访问，这里面有些应该是相对而言。

其实最底下“备份与归档”确实符合刚提到的访问特性，但该类应用对性能的要求显然没有“高性能计算”苛刻；一些对象（目标）存储产品，比如EMC Centera这样的CAS（内容寻址存储）面向的就是归档市场，戴尔DX对象存储目前也主要针对PACS（医疗影像存档系统）应用；另外HPC现在使用pNFS（并行NFS，接近于一种集群NAS的标准吧）似乎还比较少，而实施较多的Lustre文件系统则具有一定的对象存储特性。

值得注意的是：Intel在这里将以Hadoop为代表的“大型分析工具”作为一个单独的分类，那么我们看看对应的推荐解决方案是什么样的？

大数据与存储系统：分散还是集中的选择？

Xeon E5是Intel尚未发布的下一代服务器平台，那么上面的“Hadoop存储模式”带有一定的前瞻和不确定性。我们曾经提到过至强E5平台集成了RAID与SAS功能，由代号为“Patsburg”的PCH芯片组引出12条SATA连接（其中包括SAS控制器提供的）到服务器内部的硬盘，现实情况也可以是PCH集成的8端口6Gb/s SAS控制器，向外经过JBOD扩展柜中的SAS扩展器（Expander）连接数量更多的硬盘。必要时还可以添加LSI等第三方厂商的HBA或者RAID卡。

在上层靠近“存储应用/操作系统”的位置，Intel建议使用Windows或者Linux中的软件来实现RAID功能。当然根据具体不同的RAID代码，也可以利用到Intel从Xeon C5500/3500系列CPU开始加入的硬件XOR/P+Q运算加速等特性。

根据我们的理解：Hadoop其实可以不需要RAID，每一块硬盘中存储的文件对象，都在不同的服务器节点中保存有至少一份副本，因此无论是单块硬盘损坏还是整个节点离线，都可以基本保证数据的完整性和可恢复性。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

大数据与存储系统：分散还是集中的选择？

业界热点: