扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
“当云遇见大数据”是EMC World 2011大会的主题,近日我的耳朵已经快被“大数据”这个词磨出茧子了,不知您怎么样?
从笔者上一篇“单芯片16Gb FC+10GbE:加速融合网络过渡”完全不谈云计算和大数据,再到本文的确经历了一个有意思的转变,可以说编译自国外同行的“Hadoop用户需要企业级存储吗?”讲出了我们的心声。
大数据、数据分析与Hadoop分布式文件系统
从去年EMC收购Greenplum和Isilon开始,就不断将数据仓库/大型数据分析(相对于传统OLTP应用处理的数据规模而言),以及带有横向扩展(Scale-out)特性的集群NAS存储系统放在“大数据”这个概念下一起谈。可以说二者之间确实有一些共性,比如Greenplum能够支持的数据量 vs. Isilon超过10PB(最近提升至15.5PB)的单一命名空间;还有在应用和存储角度都强调高带宽,当然一方面是需求,另一方面则是提供。
然而,我们看到“EMC World 2011拥抱开源”这篇文章在2页中谈论了两个相对独立的话题,而不再是将Greenplum和Isilon笼统的罩在“大数据”下面。其中的缘由就是Hadoop——EMC 的Greenplum部门推出了自有的Hadoop 全开源社区版和增强型的企业版软件。这些软件将安装至Greenplum HD数据计算设备(Data Computing Appliance),该设备在JBOD配置中使用了SATA硬盘。
Greenplum HD = Greenplum DCA + Hadoop
笔者第一次在采访中听到Hadoop这个词,是去年底于上海采访IBM SVC的用户盛大在线CTO朱敬,其中谈到了盛大在线自主研发分布式文件系统的计划。由于朱敬先生之前在美国雅虎工作的背景,因此他表示这部分“是用雅虎开源出来的Hadoop分布式存储和分布式计算的一个技术,我们现在是基于这个技术做分布式存储的开发。”
关于Hadoop、HDFS相关的技术细节我们在此不做深入讨论,简述其优势——即除了在分布式PC/服务器集群中的每个节点上都可以处理计算和存储工作之外,最大的好处就是降低总体拥有成本(TCO)。请大家再看看下面这段话:
“要获得Web 2.0架构所带来的全部益处,企业可能必须为协调应用而采用整个Web 2.0工具包和设计模型。Hadoop分布式文件系统(HDFS)设计用于将数据分布在多个节点,以便它在发生节点故障时不出现数据丢失,甚至是数据可用性失效的问题,仍能正常运作。这就使得Web 2.0网站运营者可利用具有低廉的SATA JBOD节点的大型集群储存数据,并以很低的每GB成本进行处理。”
让我们来设想一下:一边是相对昂贵的集群NAS;另一边则是成本低廉,但硬件上几乎不具备任何容错能力(在HDFS软件层面实现数据冗余)的JBOD + SATA硬盘。如果都能够满足应用的要求,您会选择哪一种呢?
资料来自:上个月在北京举行的IDF2011技术课程“云存储解决方案设计”演讲稿
上图旨在说明针对不同应用的使用模式来决定存储解决方案(注:里面的观点笔者不完全赞同)。其中纵轴代表性能,向上偏重于小规模随机存储操作,向下则为大规模顺序访问,这里面有些应该是相对而言。
其实最底下“备份与归档”确实符合刚提到的访问特性,但该类应用对性能的要求显然没有“高性能计算”苛刻;一些对象(目标)存储产品,比如EMC Centera这样的CAS(内容寻址存储)面向的就是归档市场,戴尔DX对象存储目前也主要针对PACS(医疗影像存档系统)应用;另外HPC现在使用pNFS(并行NFS,接近于一种集群NAS的标准吧)似乎还比较少,而实施较多的Lustre文件系统则具有一定的对象存储特性。
值得注意的是:Intel在这里将以Hadoop为代表的“大型分析工具”作为一个单独的分类,那么我们看看对应的推荐解决方案是什么样的?
Xeon E5是Intel尚未发布的下一代服务器平台,那么上面的“Hadoop存储模式”带有一定的前瞻和不确定性。我们曾经提到过至强E5平台集成了RAID与SAS功能,由代号为“Patsburg”的PCH芯片组引出12条SATA连接(其中包括SAS控制器提供的)到服务器内部的硬盘,现实情况也可以是PCH集成的8端口6Gb/s SAS控制器,向外经过JBOD扩展柜中的SAS扩展器(Expander)连接数量更多的硬盘。必要时还可以添加LSI等第三方厂商的HBA或者RAID卡。
在上层靠近“存储应用/操作系统”的位置,Intel建议使用Windows或者Linux中的软件来实现RAID功能。当然根据具体不同的RAID代码,也可以利用到Intel从Xeon C5500/3500系列CPU开始加入的硬件XOR/P+Q运算加速等特性。
根据我们的理解:Hadoop其实可以不需要RAID,每一块硬盘中存储的文件对象,都在不同的服务器节点中保存有至少一份副本,因此无论是单块硬盘损坏还是整个节点离线,都可以基本保证数据的完整性和可恢复性。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者