科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道EMC讲解Hawq SQL性能:左手Hive右手Impala

EMC讲解Hawq SQL性能:左手Hive右手Impala

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

EMC Pivotal Initiative部门上周宣布了全新的Hadoop发行版——Pivotal HD,此举一出旋即引发热议。Hawq层如何运作,它的速度又有多快?Greenplum数据库首席架构师Gavin Sherry做了详细的讲解...

来源:ZDNet存储频道(编译) 2013年3月8日

关键字: EMC Hadoop

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

再有,Klahr还在现场演示中拿出一套60节点的Hadoop集群、其中包含来自零售行业的大量客户信息数据。这部分数据总量高达十亿行之巨,按照客户性别被分为两大类。在HDFS、Hive数据仓储及其类SQL式HiveQL的支持下,查询过程耗时超过一小时。但在同一套集群中运行Hawq之后,这套设备仅用了13秒就在台上完成了查询任务。

下面是演示现场在同一套60节点Hadoop集群设备当中,基于Pivotal HD堆栈的Hawq数据库服务与HDFS-Hive组合带来的不同基准测试结果。那些在Hive方案中需要用掉数小时甚至一整天的查询任务在Hawq这边只要几分钟就能顺利搞定:

 EMC讲解Hawq SQL性能:左手Hive右手Impala

Hawq堆栈在60节点集群设备的各项查询任务中如何碾压Hive

Hive需要将HiveQL查询转换为MapReduce例程,并将现有存储数据传输到HDFS当中;而Impala项目的数据库层则取自商业级Hadoopa方案Cloudera,在成功将MapReduce挤出处理流程后为每个Hadoop节点引入了数据库执行引擎。Impala能够对查询请求进行并行处理,这一点与Hawq非常相似。不过如大家所见,Greenplum发现Cloudera在并行查询处理方面仍然存在一些不足之处:

EMC讲解Hawq SQL性能:左手Hive右手Impala

Hawq在与CLoudera的Impala进行比拼时,SQL查询速度仍然胜出——至少在EMC组织的测试中是如此

“Impala需要处理一个小时的任务在Hawq这边可能只要一分钟,”Klahr对自己的产品不吝赞美之词。

Cloudera公司去年十月正式公布了Impala项目,并有望在未来一到两个月内将产品推向市场。

除此之外,EMC还有信心在其它方面占用HDFS与Impala这对搭档,即规模水平。下图即为两套方案的规模化能力比较:

 EMC讲解Hawq SQL性能:左手Hive右手Impala

EMC声称其专为HDFS打造的Hawq数据库比Cloudera的Impala更具规模化能力

Impala项目在并行查询速度方面的忽上忽下令人生疑,因为照理来说集群当中的节点越多、处理速度就应该越快才对——至少在Hawq集群这方面,确实与节点越多速度越多的预期相符。上述测试使用了完全相同的数据合集,并分别在15、30及60节点环境下加以验证。根据Sherry的解释,Hadoop技术的意义就在于只要节点规模能够翻倍、查询请求的处理速度也将等比例提高。

Cloudera公司的Impala项目在由15节点向30节点环境切换之后,处理速度的确有所放缓。正如Klahr所说,“这证实了在并行环境下处理此类查询请求的挑战所在。”

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章