扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:编译 来源:ZDNet存储频道 2013年6月28日
关键字: Hadoop 雅虎 Hortonworks
在本页阅读全文(共2页)
后事如何
Hortonworks需要花钱的地方可不少,这一点毫无疑问。“利用这笔资金,我们将专注于全局运营规模扩展以及进一步对工程团队进行投资。这将有助于我们在所有Hadoop项目中取得更理想的创新速度,”Bearden在他的博客中写道。“我们将从YARN起步,并逐渐向安全、数据生命周期管理、数据流等领域扩展。另外,这些投资也将继续被用于支持企业运营并帮助企业在未来几个月内招贤纳士。”
为了让Hadoop 2.0堆栈进一步激发客户热情、同时也给激烈的竞争稍作降温,Hortonworks将发布Hadoop 2.0堆栈的社区预览版,并于今年晚些时候推出其商用版本。
曾在雅虎负责Hadoop集群运行工作的公司联合创始人Arun Murthy告知El Reg网站,这套堆栈将以多种方式改进Hadoop的市场吸引力。有趣的是,Murthy原先一直在努力开发新一代NextGen MapReduce,现在该项目已经改名为Yet Another Resource Negotiator——简称YARN——旨在将MapReduce的多种批量处理模式引入Hadoop。鉴于YARN这个词只在他口中出现过,我们怀疑该项目还未准备好进入生产阶段。
Hadoop 2.0带来诸多重大变化,其中可扩展性的提升最引人注目。Apache Hadoop 1.0基本上只能在同一集群体系内容纳4000个节点,这是由于NameNode服务器在对遍布集群的三重数据块进行追踪时必然带来扩展性局限。(在Hadoop中,我们首先要将非结构化数据分发出去、而后对数据进行处理,接着加以分析与汇总。如果MapReduce处理的内容跨越多个数据块,还要对结果进行重新组合。)
而在Hadoop 2.0中,过去被视为大型单点故障的NameNode已经能够支持热备用功能,用户还可以将多套NameNode并联起来作为扩展手段。Murthy表示,如今大家可以将三个、四个甚至五套NameNode加以并联,且各NameNode下可容纳约4500个服务器节点。如此一来,MapReduce或者其它调度算法就拥有13500到22500个服务器节点可供使用。
YARN将帮助Hadoop针对同样的数据内容实现多种数据处理方式
在Hadoop 2.0中,MapReduce的数据处理算法与集群资源管理被拆分为二,其中YARN负责集群资源的管理工作。更重要的是,新机制允许用户在框架中添加其它非MapReduce数据处理方案。各类数据处理技术——包括交互式查询、图形分析、搜索甚至常被用于超级计算机领域的消息传递接口(简称MPI)技术——都可被囊括在内,用于处理集群中的数据。
Murthy指出,YARN方案已经在3000与5000节点两种环境下完成了测试工作。根据模拟结果,他表示对YARN在10000节点环境下的顺利运作很有信心。
“我不想过分吹嘘它的实力,因为在真正投付部署之前、YARN还不能算是成品,”Murthy笑着说道。
当然,这里所说的部署很可能在指微软或者雅虎的业务环境。
Hadoop 2.0堆栈还将采用HDFS2文件系统,这套系统能够为数据集保存快照,而且对应用程序的支持效果与NFS文件系统完全一致。(这使得MapReduce技术在竞争对手当中获得了显著优势。)它虽然不支持随机写入,但大家可以进行随机读取、连续写入以及追加写入。
Murthy并未做出确切承诺,但表示Apache Hadoop 2.0社区测试版再有几周就会与大家见面,且有望在今年夏末或者秋初正式投放市场。Hortonworks Data Platform 2.0商用版同样基于这套代码堆栈,且预计将再延后六到八周才能正式面市——这是为了完成调整与测试工作。
与此同时,Hortonworks还发起了一项验证计划,希望了解对运行在YARN上的应用程序进行测试与验证。另外,Hortonworks与网络存储供应商NetApp签订了一份分销协议,届时NetApp将以自家E系列存储产品为基础帮助Hortonworks推销Hadoop 1.0与2.0。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者