扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
大家也许还没意识到,但实际上数据的重要意义已经不局限于计算机系统当中的关键性要素——数据已经在各个领域开枝散叶、成为维系整个世界的枢纽。
引用来自摩根大通公司一位常务董事的评价,数据已经成为“企业的命脉”。他是在最近刚刚举办的一场重要技术会议(以数据为主要讨论对象)上抛出这番言论的,本次会议还深入解析了各机构走向“数据驱动”之路的途径。
《哈佛商业评论》杂志称“数据科学家”将成为“二十一世纪最性感的职位”。在这篇刚刚刊发的文章中,作者详细描述了Netflix如何采集每位用户所进行的每一项操作,并将我们“从快乐的用户转化成无意识的傀儡”。文章还告诫大家称“海量数据分析与处理已经成为现实,且有愈演愈烈之势。”
不顾后果、毫无章法地使用“大数据”概念
前面提到的所有文章都在极力鼓吹大数据的优势与威能,并希望借此实现大数据的宣传、营销或者盈利目标——毫无疑问,大数据已经成为今年最耀眼的技术发展趋势。如果读者朋友自己是技术人士,应该会明显感觉到如今这个时代开口不谈大数据简直没脸跟同仁打招呼。但与此同时,大家似乎对这个话题都说不出个所以然,因为没几个人能真正说清大数据是个什么玩意儿。呃,其实这一结论也有点武断。严格来说,目前的大数据概念主要从属于几股以产品为载体的派别:
• 由于业界大佬谷歌、Facebook及Amazon对于信息的极度渴求,处于爆炸式增长中的新数据被批量收集起来(包括存储、处理以及分析)。
• 信息的多元化特性愈发显著,这一状况源自网上购物、Facebook状态更新、tweet内容、图片共享以及各类登记资料等等。
• 整个业界都在渴求一种能够将如此庞大数据尽快、尽可能高效打理好的方案。
然而大数据概念似乎正被不顾后果、毫无章法地过度使用;即使偶尔使用方法对路,其适用范围也并不像技术人员想象的那么宽泛。
前面提到的三种派别都是真实存在的。谷歌公司正在极力攫取来自各类资源的每一字节信息内容,试图为尽可能多的用户创建与其使用习惯相匹配的配置文件。(这种思路无疑是把双刃剑:就以Google Now为例,它会以‘在客户发现需求前推荐合适的产品’为借口大肆进行广告宣传——但在这里我们不打算讨论道德层面的问题。)
很显然,这种源自各类源头的数据信息不会以规则的形式存在。因此谷歌公司可能需要一套独特的处理工具集来打理这些数据,至少这类方案不同于过去存在的任何数据数量及类型。
目前声名最盛的两大工具分别为Hadoop——一款非关系型分布式数据库框架——与MapReduce——一套由谷歌公司开发的算法集合,旨在将来自各类资源的多元化数据整理为独立的一套键/值对。通过Hadoop与MapReduce,谷歌能够将海量数据集合拆分为可以管理的数据块,并通过服务器群独立处理这些非状态化数据块。
这一切真能成为现实吗?在无需复杂的预处理过程的前提下将原本无法轻松、快速管理的大数据集合通过关系型数据库打理好?有可能。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。