科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道大数据很简单!基于AWS的Hadoop集群配置攻略

大数据很简单!基于AWS的Hadoop集群配置攻略

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

运行Hadoop的途径有很多,但如果你希望立马就开始、而又不想为自己搭建一个集群而烦恼的话该怎么办?你最好的选择可能是一个基于云的Hadoop集群,Amazon Web Services (AWS)上的Elastic MapReduce (EMR)也许可以让你快速地达到这个目的。

作者:ZDNet 来源:ZDNet存储频道 2013年1月17日

关键字: MapR Amazon AWS 大数据 Hadoop

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共6页)

Amazon云上的Hadoop

大数据很简单!基于AWS的Hadoop集群配置攻略

运行Hadoop的途径有很多,但如果你希望立马就开始、而又不想为自己搭建一个集群而烦恼的话该怎么办?你最好的选择可能是一个基于云的Hadoop集群,Amazon Web Services (AWS)上的Elastic MapReduce (EMR)也许可以让你快速地达到这个目的。

为了让一个EMR集群启动并运行起来,你需要先在http://aws.amazon.com上创建一个AWS账户,你还需要创建一个安全密钥对。当然还有其他几个步骤,我们将在这篇文章中为你一一介绍。

大数据很简单!基于AWS的Hadoop集群配置攻略

选择一个发行版

Amazon把创建一个EMR集群的过程称之为创建一个“工作流”,你可以从命令行中做到这一点,利用我们在后面会详细描述的技巧,但是你还可以通过浏览器实现。在浏览器上进入AWS平台https://console.aws.amazon.com/elasticmapreduc的EMR主页,点击顶部左侧的“创建新的工作流”(Create New Job Flow)按钮,然后会弹出一个“创新一个新工作流”(Create a New Job Flow)的对话框(实际上这是一个向导),我们在这里对第一屏截了个图。

一个EMR集群可以利用Amazon自己的Hadoop发行版,或者MapR的M3/M5发行版。M5是收费版,不是MapR的开源发行版。

大数据很简单!基于AWS的Hadoop集群配置攻略

示例应用

运行一个示例应用,就可以马上启动Amazon的Elastic MapReduce,而不用在自己的数据上运行自己的代码。Amazon提供了WordCount(常用的Hadoop示例应用) 以及基于Hive的上下文广告示例、基于Java和Pig的日志分析,以及其他基于Java、查看来自Amazon CloudBurst服务的数据的示例。

大数据很简单!基于AWS的Hadoop集群配置攻略

运行你自己的应用

如果你需要做生产工作,或者只是想进行一种更自由的Hadoop实验,那么你将需要选择运行自己的应用。选择HBase,点击“继续”是最好的,因为这样你也可以添加Hive和Pig。

大数据很简单!基于AWS的Hadoop集群配置攻略

指定参数

“指定参数”(Specify Parameters)一屏需要你为HBase集群配置备份选项,以及/或者通过现有的备份创建新集群。

如果你只是希望在沙箱中运行的话,你可以忽略备份选项,但是确保要在屏幕底部的“安装附加软件包”(Install Additional Packages)选择Hive和Pig的复选框,点击“继续”。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章