扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
IT年有热词出,今年轮到大数据。各种厂商齐上阵,热度不输云计算。
词红是非多,本是正常现象。在奥巴马竞选连任都要归功于大数据的同时,“大数据”所受到的质疑,也颇有超越“云计算”当年之势。
不过,即使在一两年前,围绕云计算虽仍有不少争论,但已更多的集中在实现路径等技术层面上,对云计算概念和价值的质疑逐渐减少。大数据则不然,随着宣传覆盖面的扩大,更多看似与最初大数据定义无关的厂商或组织加入,迷惑与反感的声音也逐渐响亮起来。
这货连任真的多亏了大数据?斯巴达……
很大程度上因为,云计算更多是IT层面可以决定的事情,大数据则很大程度上升到了管理层面,而技术解决不了制度的问题。
2011年,新加坡-麻省理工学院研究和技术联盟(SMART)高级研究工程师Oliver Senn在一项联合任务中花了五个月向市民提供实时数据和见解,帮助他们改善城市面貌。刚接受将两个月的气象卫星数据和GPS记录下来的8000万辆出租车程的8.3亿次记录进行比较的任务时,Senn有一点失望。“新加坡每个人都知道下了暴雨是不可能打到车的,”Senn说到,“所以我希望这些数据能基本证实这个假设。”
随着他对一个有超过1.6万辆出租车的车队的相关数据进行筛选,一个奇怪的模式浮出水面:似乎很多出租车在下暴雨的时候并不开。实际上,GPS记录显示:下雨时,很多司机都会把车驶到路边,根本就不载客。
Senn和司机坐下来面对面确认了自己的研究发现。他了解到,拥有该岛国最多出租车的公司会在发生事故后立即从司机的工资里扣除1000美元,直到确定谁是责任人。事故的解决过程会持续好几个月,所以司机们认为不值得拿自己的生计冒险和官僚机构纠缠那么久。所以开始下雨时,他们就会把车驶到路边,等暴风雨过去。
作为该数据研究的一项直接结果,这一意想不到的新发现使这家公司目瞪口呆。现在,有了对这一情况的了解,他们正在确定如何制定不存在漏洞、使客人、司机或母公司明显无空可钻的政策。
生活在北京的同学们,上面这个大数据的故事是否很面熟?而我们也很容易从必要性和可实施性两个方面来否定其实用价值:
要了解对北京出租车行业的抱怨?看看中科院软件所研究员张云泉9月25日发的微博就知道了,40天后的今日依然活跃在微博上,转发次数超2万……您千万别跟我说这也非用大数据的技术来挖掘不可
讲个故事容易嘛?可是还得讲,因为需要在管理层面体现价值的事情,必须先做好管理层的工作。与具体的技术实现等程序员、工程师们喜欢的所谓“干货”相比,讲故事的方式更容易被高管们接受。
所以,在推广大数据概念的路上,讲故事之风盛行。只是,找到好的故事素材不易,把故事讲好就更需要功力——或许,还有那么一点点运气……
大数据不大?
要讲大数据,首先绕不过“什么是大数据?”这个问题。
从技术的角度出发,很容易质疑“大数据”这个词不准确。虽说技术宅们成天挂在嘴边的名词也未必都那么严谨,譬如“硬盘”本应叫“硬驱”,固态硬盘更不“硬”(完全承袭“硬盘”的叫法罢了),但已经是约定俗成,准确性差点儿意思没关系,大家都知道指的是什么东西就行。
大数据则不然,即使和同样商业含义浓厚的词汇比起来,它也够令人不知所云的了。
以“电子商务”为例,当初这个词刚开始传播的时候,大多数人无法想象到今天的样子,但不难理解是“商务”与“电子”的结合,意味着一类新的商业模式。可是,“数据”加上“大”呢?
更大的数据?以前的数据不大么?大与不大,这个分野如何界定?
EMC公司Greenplum事业部市场副总裁Michael Howard介绍大数据涉及的数据生成源
如果抓住“大”的字面意思不放,那么,无论从增长速度、在“数字宇宙”中所占比例,还是单个文件的尺寸,视频都应该符合“大数据”的定义。但是,受到技术手段的限制,现在还很难对视频的内容进行有价值的分析利用。所以,在各种关于大数据的故事中,视频应用的案例很少,介绍大数据的视频倒是很多。
据说,美特斯邦威曾经在埃森哲的帮助下做过尝试,在店铺内摆放衣服的位置放一个摄像头,看男女怎么选择,少数几个参数(软件基本也就能分析出来性别,追踪活动轨迹吧)。得到的结论是,原以为买T恤,北方男士应该多选暗色,南方多选亮色。监控视频分析的结果恰恰相反,经过对顾客的调查发现,北方男士选择亮色,是为了看起来暖。有点儿意思,但是不符合大数据4V定义中最关键的“Value”,缺乏商业价值。
今年7月,英特尔在国内宣布英特尔发行版Hadoop时,请来据称2011年全球视频监控产品市场份额排名第一的海康威视站台。海康威视副总裁蒋海青认为,“平安城市”的视频监控应用所产生的数据在规模和结构上,都符合大数据定义。现在视频监控所采集的视频质量从标清进步到了高清(注:这个标清和高清,与我们看的电影不是一个定义)的时代,可以想象一个大型“平安城市”项目所产生的数据信息量何等之大。并且,“平安城市”视频监控采集到的海量数据也和其他种类的大数据一样,只有进行了智能、高效处理才更具价值。以上两点确定了“平安城市”视频监控应用必将成为大数据应用,也决定了它需要大数据技术予以支撑。
“必将”我们不怀疑,但不知机器(软件)对视频内容的识别可以很大程度上代替人工的那一天,“大数据”这个词还能否在人们的脑海里浮现。至少,蒋总没有说清楚,热炒的一堆有关大数据的技术,在对视频监控内容的分析上,发挥了多大的作用。
图片文件的尺寸比视频文件要小很多,但数量巨大,总体规模和成长速度也相当可观。图片内容的识别也非易事,Google有图片搜索,Flickr的图片也可以根据色块进行分类,但要在图片内容的分析上达到如多数“大数据”宣传般的水准,也尚需时日。
IBM近来对大数据的4V定义,与早期的三V一C相比(还有一个V是Value,作为衡量结果),Complexity(复杂性)被换成了Veracity(真实性),其中指出了对于社交数据,要考虑如何筛选出可信的数据
与视频相关的企业如YouTube、NetFlix,要运用大数据的技术,追踪、分析用户观看或租赁视频内容的行为与联系,进而指导业务,并非难事,甚至已经实现。但是,在这种情况下,不管容量多大的视频或DVD,在“大数据”处理系统内可能都仅表现为一个个ID,衍生出来的一系列相关数据,总容量(相对而言)并不大,仍然是用传统或新兴的数据库/数据仓库来处理。如前所述,对于体量更大的视频内容本身,现在能做的,还很有限。
为了这个“大”字咬文嚼字半天,貌似英文用的“Big”也不仅仅是体量大。大数据4V定义中,与“大”比较直接相关的是Volume,不能单纯理解为“容量”,还有“数量”等含义,可以理解为“海量的数据规模”。但这样一来,似乎就落入到“海量数据”的窠臼里了,不Fashion……
所以,数据大不等于大数据,为了突出不是现有设备、技术、方法所能处理的传统“海量数据”,推广者们不惜生造出来了“大数据”这么个看起来很不严谨的词。如果放宽容忍度,能知道我们提起“大数据”时,大概指的是哪一个范围就算不错。
大数据社交?
有了上面的背景,当听到“大数据人类面孔”(The Human Face of Big Data,HFoBD)这个项目时,就不会望文生义,误解为与视频或图像中的人脸识别有密切的关联——虽然,“大数据人类面孔”项目的发起者里克·斯莫兰(Rick Smolan)是一位著名的摄影家。
我们可以看看这个项目的简介:
该项目是一个全球性的尝试,旨在向人类介绍大数据对我们所有人在生活、学习、治理、工作和玩乐方式上的革命性作用。该项目将通过简单、人性化的故事和图像,展示大数据已经对我们的世界带来的改变,并预示它将在未来影响到我们的一些方式。该项目还将大数据作为活动本身的基石:它将全球数以百万计的人聚集到一起,充当一天的“人体传感器”,提供他们在2012年一个24小时的时间段内,有关他们的思想、行为、意见和经验的信息。该项目有六个主要组成部分:人类的传感器组件(智能手机应用程序)、行动中的大数据视觉记录(印刷精装书及电子书)、“指挥控制中心”(Mission Control)体验、大数据追踪器、数据视觉化工具包、媒体和社交媒体推广……
大数据人类面孔新加坡“指挥控制中心”活动现场
不难理解,这个项目在讲大数据故事的同时,也在搜集故事素材。
“大数据人类面孔”智能手机应用,最初只有Andorid英文版,但已可见强烈的社交属性
以“人类的传感器组件”为例,里克·斯莫兰及其团队开发了一个“大数据人类面孔”的智能手机应用(五种语言的iOS和Android版本免费下载)来“测量我们的世界”。我在还只有Android下的英文版时安装了这个应用,回答了N多诸如“你认为死后会发生什么”、“从小养过/没养过宠物”等问题。在新加坡的“指挥控制中心”体验环节,介绍了从上百万参与调查者中分析的结果,譬如:
在“家庭”一节中,有“从小父母对我(偏严厉/宽容)”和“我比较(偏悲观/乐观)”等问题。分析发现,从小父母严厉的人,长大后性格会比较悲观。呃……这个,怎么说呢?这个项目的探索值得鼓励,但具体到分析结果,似乎只是印证了我们的常识而已,并没有体现出大数据最重要的特征——Value。
“大数据人类面孔”Android平台应用,显示9月底有10万多人参与调查,一周后随着活动的推广接近200万,现在已超过300万
作为“大数据人类面孔”的主赞助商,EMC公司高级副总裁Steve Leonard在提及该项目时虽然说到“作为人类活动的一部分, Youtube网站 24小时的视频,每60秒都在上传的视频,你认为是多少呢?”但是EMC公司旗下主打大数据分析的Greenplum事业部,在新加坡“指挥控制中心”展示的,主要是与Twitter合作的数据可视化成果。为达成这一目标,EMC在拉斯维加斯设了1000个节点的Greenplum集群,采集twitter信息,加以分析。用EMC的话说,信息量大的就像消防的水喉(firehose)。
数据可视化是目前大数据的施展舞台之一,但要反过来从可视化的数据里发掘价值……
乍看起来,分析Twitter的文本内容,要比图片或视频中的“人脸识别”要容易多了。不过,细想想,软件要识别单词如“Romney”、“Obama”容易,从人类语言的上下文中判断出情感和态度,实在太难。
右边这货在参与调查中的人里是和我比较匹配的之一?幸亏“大数据人类面孔”搞的不是人脸识别……
就像同行的一位翻译朋友说的,“我爱奥巴马”和“我爱死奥巴马了”,其中的态度有何等区别,于软件分析来说,绝对是个难题。英文也好不到那里去,所以在Greenplum展示的Twitter例子中,也是侧重在挖掘选民发推与奥巴马或罗姆尼的关联度,谁被谈论的更多,但是无法作为支持率高低的依据。
大选结束后,《时代》杂志一篇分析奥巴马竞选团队在本届大选中所使用的全新数据分析战略的文章,为大数据的热潮再度加温。08年玩转社交,12年运用大数据,奥巴马的两次竞选完美的诠释了“与时俱进”,简直是潮爆了。有人说,这一次,玩转社交是奥巴马获取民意的前台表现;而在后台,是大数据支撑着奥巴马各种竞选策略的出台,决定他应该到哪些社交平台上去亮相。不过,从这篇文章里,我们很难看到大数据方法与社交网络上各种内容的深度挖掘,主要戏份似乎仍属于电话、电子邮件等相对“传统”的手段。
对Twitter上数据的这个统计倒是与大选后公布的相关信息比较吻合
也许有人会问,讲大数据的话题,为何抓住社交网络不放?这是因为,社交网络源源不断产生的各种文本、图片、视频信息,符合大数据的Volume和Variety(多样化)定义,足够Complexity(复杂),也需要Velocity(快速地)处理,但正如前面所分析的,人直接生成(如Twitter与Facebook文本)或含有复杂人类活动(如照片、视频)的数据,机器判断起来很有难度,受现有技术手段的限制,目前所能产生的Value(价值),还相对有限。
相比之下,各种传感器搜集、记录的简单信息(如位置信息,非视频、图像),既符合大数据公认的三V一C定义,也相对便于处理分析,已经体现出巨大的价值,这方面早有Splunk的成功和各种用户行为分析的尝试可证明。
较之以往企业关键的交易数据,这些数据的来源更为广泛(Volume)多样(Variety),相对也更为复杂(Complexity),但仍然可以放在各种数据库或数据仓库中,更多的运用新兴的技术手段快速(Velocity)处理,是传统的交易系统难以覆盖的。
换言之,大不大是次要的,“大数据”带给我们的启发,是需要注意传统企业交易数据库之外的,所有其他数据的价值——特别是很多传感器自动搜集的所谓“被动数据”。或许有些类型的数据中,无意义的垃圾信息较多,但要点是,每种类型的数据,都要考虑如何有效组织利用。
Oracle将大数据放在核心业务数据(传统的交易型数据)之下,分开的做法有道理,但是不是也想体现高下之分呢?
这些数据,当然也包括含义更为复杂的社交数据。也许眼下还产生不了足够的价值,但在大数据兴起、群雄逐鹿之际,各大厂商都忙着抢占地盘,在保证自家既有利益的同时,为将来的增长提前布局。今年的Oracle Open World有一页演示资料,几乎将大数据与社交数据划了等号,相对Oracle核心的数据库和数据仓库,处于数据金字塔的底端。而Steve Leonard的一段话也颇耐人寻味:
“想一想所有产生的信息。再想一想通常有100倍数量的信息只是在传输中,没有保存和保护,只是流经系统。每一个真正保存下来的信息,都是从几百倍的信息量中留存下来的。因此,我们所有人,每天都在产生巨大的数字足迹,或者数字影子。这是人作为个体,每天在干的事。”
你怎么看?反正我感觉,EMC的意思是,社交数据现在不能充分利用没关系,但一定要先保存下来,将来才有可能用得上……唔,这么说也没错,对你和EMC,都有好处。从这个角度出发,也可以部分解释,为何公认大数据的价值在于分析,但存储厂商却是热情最高的群体之一。
不管你是否接受大数据的概念,或者这个热潮能持续多久,围绕数据讲故事的“另类”战场已然开辟。厂商们从各自的出发点来讲故事,比拼的是谁能打动客户的内心,故事才算讲成功。然后?你懂的……
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者