扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共6页)
Amazon云上的Hadoop
运行Hadoop的途径有很多,但如果你希望立马就开始、而又不想为自己搭建一个集群而烦恼的话该怎么办?你最好的选择可能是一个基于云的Hadoop集群,Amazon Web Services (AWS)上的Elastic MapReduce (EMR)也许可以让你快速地达到这个目的。
为了让一个EMR集群启动并运行起来,你需要先在http://aws.amazon.com上创建一个AWS账户,你还需要创建一个安全密钥对。当然还有其他几个步骤,我们将在这篇文章中为你一一介绍。
选择一个发行版
Amazon把创建一个EMR集群的过程称之为创建一个“工作流”,你可以从命令行中做到这一点,利用我们在后面会详细描述的技巧,但是你还可以通过浏览器实现。在浏览器上进入AWS平台https://console.aws.amazon.com/elasticmapreduc的EMR主页,点击顶部左侧的“创建新的工作流”(Create New Job Flow)按钮,然后会弹出一个“创新一个新工作流”(Create a New Job Flow)的对话框(实际上这是一个向导),我们在这里对第一屏截了个图。
一个EMR集群可以利用Amazon自己的Hadoop发行版,或者MapR的M3/M5发行版。M5是收费版,不是MapR的开源发行版。
示例应用
运行一个示例应用,就可以马上启动Amazon的Elastic MapReduce,而不用在自己的数据上运行自己的代码。Amazon提供了WordCount(常用的Hadoop示例应用) 以及基于Hive的上下文广告示例、基于Java和Pig的日志分析,以及其他基于Java、查看来自Amazon CloudBurst服务的数据的示例。
运行你自己的应用
如果你需要做生产工作,或者只是想进行一种更自由的Hadoop实验,那么你将需要选择运行自己的应用。选择HBase,点击“继续”是最好的,因为这样你也可以添加Hive和Pig。
指定参数
“指定参数”(Specify Parameters)一屏需要你为HBase集群配置备份选项,以及/或者通过现有的备份创建新集群。
如果你只是希望在沙箱中运行的话,你可以忽略备份选项,但是确保要在屏幕底部的“安装附加软件包”(Install Additional Packages)选择Hive和Pig的复选框,点击“继续”。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者