扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
但是如何开采这座金矿呢?
有着超过100PB数据并且每天都在增长的用户数据,Facebook已经基于Hadoop建立了一个数据存储系统。Apache Hadoop项目旨在开发可靠的、可伸缩的、可分布式计算的开源软件。
Hadoop实际上是一个将大量数据集处理流程分发到多台计算机上的框架,它能够从单台服务器纵向扩展到成千上万台分布式服务器,提供一个高度可伸缩的、高可用性的大数据解决方案。
尽管编程模型的目的是要简单化,但这也被证明是一个相当复杂的进化,至少针对Facebook的需求来说是这样的。如果Facebook的“伟大的想法”是来自对数据的研究,那么他们就要适应Hadoop来支持自己的数据科学了。
Facebook与Cloudera、Hortonworks等厂商合作,构建了基于Hadoop的Hive数据仓库系统。Hive让Facebook由12位研究人员所组成的数据科学小组能够应用社会科学研究方法,来创建特定的查询,并对存储在Hadoop中的大型数据集进行各种分析。
Hive项目为数据科学团队提供了一个机制,可以用来在这些数据上构建一个项目结构,使用类似于结构查询语言SQL的语言(HiveQL)来查询数据;因此,允许他们来挖掘Facebook的数据。
据Greylock Partners的数据科学家DJ Patil表示:“Facebook数据仓库的一个潜在用途,是出售通过挖掘这些数据所获得的洞察结果。这些信息可以是几乎任何类型业务的基础。如果Facebook可以在不惹恼用户和监管者的前提下进行这项工作的话,那么这有可能会是有利可图的。”
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者