扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
周四,在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,该公司正在已经拥有250PB、十分庞大并还在不断增长的数据仓库中,使用称之为Presto的新的自主开发的查询引擎进行快速交互分析。
每天有超过850个Facebook员工使用Presto,每天扫描的数据达320TB,工程师Martin Traverso介绍说。
“以前,我们的数据科学家和分析人员依赖Hive进行数据分析”,Traverso说。“Hive的问题在于它是为批量分析设计的。我们有比Hive更快的工具,但是在功能上过于有限或过于简单,无法完成针对我们巨大数据仓库的操作。在过去数月中,我们一直致力开发Presto以从根本上填补这一空缺。”
Facebook于几年前开发了Hive,让Hadoop有了一些数据仓库和类似SQL的功能,但是因为依赖于MapReduce,Hive在速度方面显示出了不足。扫描整个数据集需要几分钟到几个小时的时间,如果你急于问答问题时,效果就不理想了。
但是如果使用Presto,查询只需数百毫秒,更复杂的查询将需要运行几分钟,Traverso介绍说。查询在内存内运行,绝不会写到硬盘上,他说道。
照片:Traverso解释Facebook新研发的Presto引擎的架构。
虽然看起来Presto如同Cloudera 的Impala SQL查询引擎的Facebook版本,或与Hortonworks在Stinger项目中所做的事情相似,但这是按照Facebook规模为实现更快操作而定制的版本。Presto并不与其他商业产品进行竞争,但是它会很快让大数据行业产生不小的震动。Traverso说,Facebook计划在今年秋天以开源方式发布Presto。
Facebook的工程经理Ravi Murthy介绍说,Facebook数据仓库规模的增长速度要快于其网站用户数量的增长速度。现在的规模是四年前的4000倍。“我们对未来几年的增长做了预测,我们很清楚,很快在某一时间点,数据仓库将达一个EB的规模”,Murthy说道。“考虑到这个EB的规模,我们必须要重新思考很多不同的事物。”
Presto就是需要重新考虑的众多事情之一。除了能让查询的速度更快,这个引擎使用CPU的效能要比Hive高七倍。
另一个研究中的项目是减少分析数据在Facebook数据中心的存储中占用的空间。工程经理Sambavi Muthukrishnan谈到了Facebook是怎样在维持数据高可用性的同时减少数据副本数量的。特别是在数据清冷、或者说访问频率更低的情况下,这是可以实现的。
作为一家卓越的网络规模公司,从交换机到服务器再到社交图谱,Facebook在硬件或软件上持续创新。在6月19日在旧金山召开的GigaOM结构会议上,当我的同事Stacey Higginbotham同Facebook负责基础设施工程的副总裁Jay Parikh坐在一起时,这些话题肯定会被谈起。Presto只是让这次会谈变得有吸引力的最新的一个原因。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。