扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
谷歌公司的特殊需求
MapReduce真如传闻中那样有能力承载数据合并技术之王、游戏规则改写者的桂冠吗?答案几乎是否定的:谷歌公司此项专利技术的合法性一直备受质疑,而且不少现有产品都能够以更简单的方式轻松实现相同的功能。目前谷歌在网络上公布的基本MapReduce实例只有几十行Java代码,从这些内容上看我们找不到任何革命性的理念及突破。
但我们姑且假设谷歌公司需要这些工具来满足自身非常独特的需求,换言之,我们不妨假定各类现有工具及数据库框架还不足以实现谷歌的技术雄心。在这种情况下,大数据显然并不能成为适用于所有机构、适合处理所有海量计算机应用的方案。尽管大数据支持者们始终坚信这一点,但我们对于此类新型数据库及软件模型尚无法寄托如此级别的厚望。
大量数据,甚至是海量数据的不断涌现也早已算不上什么新鲜事。在投资银行领域,高频交易系统始终需要以微秒为时间单位处理众多交易事务;市场数据引擎多年来也一直需要以秒为单位存储并处理成千上万价格标记。
再来说说我的朋友Ken Caldeira,他在斯坦福大学卡内基研究所里埋头鼓捣气象科学。正如预料,我发现他经常需要与“PB级数据”打交道。我另一位曾在华尔街接受过数据分析工程培训的物理学家同事则在2000年之后花了长时间搞基因组研究,根据他的说法整个研究过程中存在“数据惊人的数据需要进行分析”。
在大数据的时代,前所未有的庞大数据集经常被引用、几乎每个人都或多或少与之有所接触,而上一代工具面对如此规模的工作量显得非常无力。
但在大多数情况下,Caldeira和我的数据分析专家朋友还在使用……Python脚本与C++来解决问题。没错,确实有不少大数据用户目前在使用大规模并行架构、集群及云计算实现处理工作,但这种做法已经出现了十年以上;而且如我的朋友所指出,“人们常常分不清自己在云中做出的成果跟他人有何区别,这是因为云环境下的数据无法明确区分出不同开发者做出的贡献。”利用分布式数据库来赢得更快的速度与更安全的冗余机制对于每位用户都非常重要,至少能够帮助我们显著压缩现有硬件成本。
你能想象自己信赖的银行在tweet及Facebook博文中计算账户信息吗?
另一种引发大数据算法变革的因素在于不同类型数据的爆炸式增长。正如前文所述,谷歌与Facebook等公司需要为配置文件或来自各类资源的统计信息进行创建及处理工作,更令人头痛的是这些信息的格式同样多种多样。当然,并不是每位用户都面临着这样的问题。当人们讨论这些新型、凌乱繁杂的非结构化数据时,他们大多数情况下指的都是来自社交网络及博客平台的信息。
银行领域所使用的核心系统(在处理交易事务方面,老式关系类数据库仍然占据着绝对的统治地位)真的需要接触到社交媒体数据吗?库存系统、数字目录或者癌症研究人士所使用的系统呢?我们还需要考虑,如果数据出于某种原因而无法通过分布式、无状态的方式处理,大数据技术又能起什么作用?
高度非结构化数据仍然占据着专门但规模相对有限的利基市场,但其表现与地位则相当抢眼。与当下常见的系统不同,大数据技术不需要对来自各类资源的合并数据提前进行解析、翻译或者预处理。
如果某家公司在多年之后突然认为自己需要大数据技术来让业务更进一步,则意味着他们一定在业务领域迎来了根本性转变、开始走向与之前的经营方式完全不同的发展道路——很显然,即使是在极端情况下上述假设也很难成立。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。