至顶网›存储频道 ›大数据，Facebook的下一座金矿

大数据，Facebook的下一座金矿

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

Facebook核心的社交网络其实是一个广告公司，现在他们收入中有82%来自广告，但是Faceboo与传统网络广告公司Google的市盈率相去甚远，通用弃投Facebook或许也从一个侧面说明数字广告的价值正在不断减少。但是，Facebook的9.55亿用户中，一半以上的用户每天都在积极使用Facebook生成大量数据，也许这高达100PB的数据就是Facebook的下一座“金矿”——出售通过挖掘这些数据所获得的洞察结果，这些信息可以是几乎任何类型业务的基础。

作者：Gery Menegaz_ZDNet US 来源：ZDNet存储频道 2012年9月3日

关键字：大数据数据分析 Facebook Google

在本页阅读全文(共2页)

但是如何开采这座金矿呢？

有着超过100PB数据并且每天都在增长的用户数据，Facebook已经基于Hadoop建立了一个数据存储系统。Apache Hadoop项目旨在开发可靠的、可伸缩的、可分布式计算的开源软件。

Hadoop实际上是一个将大量数据集处理流程分发到多台计算机上的框架，它能够从单台服务器纵向扩展到成千上万台分布式服务器，提供一个高度可伸缩的、高可用性的大数据解决方案。

大数据，Facebook的下一座金矿

尽管编程模型的目的是要简单化，但这也被证明是一个相当复杂的进化，至少针对Facebook的需求来说是这样的。如果Facebook的“伟大的想法”是来自对数据的研究，那么他们就要适应Hadoop来支持自己的数据科学了。

Facebook与Cloudera、Hortonworks等厂商合作，构建了基于Hadoop的Hive数据仓库系统。Hive让Facebook由12位研究人员所组成的数据科学小组能够应用社会科学研究方法，来创建特定的查询，并对存储在Hadoop中的大型数据集进行各种分析。

Hive项目为数据科学团队提供了一个机制，可以用来在这些数据上构建一个项目结构，使用类似于结构查询语言SQL的语言(HiveQL)来查询数据；因此，允许他们来挖掘Facebook的数据。

据Greylock Partners的数据科学家DJ Patil表示：“Facebook数据仓库的一个潜在用途，是出售通过挖掘这些数据所获得的洞察结果。这些信息可以是几乎任何类型业务的基础。如果Facebook可以在不惹恼用户和监管者的前提下进行这项工作的话，那么这有可能会是有利可图的。”

大数据，Facebook的下一座金矿

业界热点: