科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道大数据,Facebook的下一座金矿

大数据,Facebook的下一座金矿

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Facebook核心的社交网络其实是一个广告公司,现在他们收入中有82%来自广告,但是Faceboo与传统网络广告公司Google的市盈率相去甚远,通用弃投Facebook或许也从一个侧面说明数字广告的价值正在不断减少。但是,Facebook的9.55亿用户中,一半以上的用户每天都在积极使用Facebook生成大量数据,也许这高达100PB的数据就是Facebook的下一座“金矿”——出售通过挖掘这些数据所获得的洞察结果,这些信息可以是几乎任何类型业务的基础。

作者:Gery Menegaz_ZDNet US 来源:ZDNet存储频道 2012年9月3日

关键字: 大数据 数据分析 Facebook Google

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

但是如何开采这座金矿呢?

有着超过100PB数据并且每天都在增长的用户数据,Facebook已经基于Hadoop建立了一个数据存储系统。Apache Hadoop项目旨在开发可靠的、可伸缩的、可分布式计算的开源软件。

Hadoop实际上是一个将大量数据集处理流程分发到多台计算机上的框架,它能够从单台服务器纵向扩展到成千上万台分布式服务器,提供一个高度可伸缩的、高可用性的大数据解决方案。

大数据,Facebook的下一座金矿

尽管编程模型的目的是要简单化,但这也被证明是一个相当复杂的进化,至少针对Facebook的需求来说是这样的。如果Facebook的“伟大的想法”是来自对数据的研究,那么他们就要适应Hadoop来支持自己的数据科学了。

Facebook与Cloudera、Hortonworks等厂商合作,构建了基于Hadoop的Hive数据仓库系统。Hive让Facebook由12位研究人员所组成的数据科学小组能够应用社会科学研究方法,来创建特定的查询,并对存储在Hadoop中的大型数据集进行各种分析。

Hive项目为数据科学团队提供了一个机制,可以用来在这些数据上构建一个项目结构,使用类似于结构查询语言SQL的语言(HiveQL)来查询数据;因此,允许他们来挖掘Facebook的数据。

据Greylock Partners的数据科学家DJ Patil表示:“Facebook数据仓库的一个潜在用途,是出售通过挖掘这些数据所获得的洞察结果。这些信息可以是几乎任何类型业务的基础。如果Facebook可以在不惹恼用户和监管者的前提下进行这项工作的话,那么这有可能会是有利可图的。”

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章