扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
大数据 旧壶还是新酒?
大数据个相对概念,并不是全新的东西。“就像福特当年通过量产将汽车大众化一样,Teradata想做到的是怎么把现在炙手可热的大数据从谷歌、雅虎、阿里这些技术性公司带出来,让它更易用,将数据的价值更大化、更普遍地利用。”近日,Teradata天睿公司大中华区Aster事业部总监孔宇华在到中国计算机报社就大数据做交流时如此表述。
在孔宇华看来,现如今的“大”数据与过去有一样的地方,也有不一样的地方。“一样的是,大数据并没有清晰的界定,它的范围会随着技术进步不断变化:历史上的某些大数据今天已经不再是大数据了,比如通话话单、交易流水等,而现在我们所认为的某些大数据在未来看可能都只是小菜一碟。不一样的是,大部分企业要分析的数据已经不能在一个服务器上存储,而竞争的压力迫使他们要开始在大数据平台之上分析这些数据。”
“不一样的是数据来源更多了,如传感器、社交网络等,数据种类(非结构化数据)也更多了;但一样的是,几乎没有方法可以直接分析非结构化的数据,都是得通过特定的提炼处理方法,将数据转换为结构化数据来分析。无论是图像的识别与比较还是自然语言的处理,前者是通过指定位置像素信息的采集将图形转换为结构化的数据,进而进行比较分析,后者是利用语料库生成词汇组合,统计不同词汇组合在文本中的出现频率与位置,将大段文本转换为可分析的结构化数据,它们都是一样的,都需要将非结构化、半结构化数据转换为结构化数据才能进行分析。”
“我以前也分析过文字文本,做过统计,用过SAS,只不过我没把它叫大数据而已。不一样的是,以前只是做文字文本或者统计分析,而在大数据时代,我们需要混搭分析方法,做时间序列分析、地理分析、时空分析、社交网络分析、日志分析、事件分析等。混搭分析方法可以从数据里提炼出更多的价值。但即便是这样,其实Google、 Amazon、Yahoo等在多年前就开始做大数据了,只不过我们现在要做的是将大数据大众化、普世化、易用化,让它发挥更大的价值。”
统一数据架构 高效灵活分析
企业用户虽然过去也在做大量的数据分析,但分析人员大多是用SQL语言实现。SQL是一种高层级语言,易用,写一次可以重复使用。当我们有新的分析需求时,SQL不一定是最好的分析工具,于是,MapReduce进入人们视野。
MapReduce有较好的编程模式,编程灵活,扩展性强,可支撑实现真正大容量数据的处理。但MapReduce要求操作人有很好的编程背景,需要编程人员写源代码,很难做到重复利用代码,且像连接、分组、排序等SQL具有的一些算法,用MapReduce实现很慢。
“我们研发了SQL-MapReduce专利技术,将两个框架结合在一起,实现一个可以重复使用、易用、灵活的,也可以处理大量数据的分析工具。SQL-MapReduce是一个并行的平台,可以处理大容量的数据。”孔宇华介绍,2011年Teradata收购Aster时,他正负责Aster的咨询团队、客户服务团队和培训团队。孔宇华介绍, Teradata Aster大数据综合分析平台整合了Aster和Apache Hadoop,嵌入SQL-MapReduce专利技术,能对新数据源和多结构数据类型进行更深入的分析处理,借助Teradata Aster统一数据架构及SQL-H等高速连接器带来高可扩展性的分析能力。它预先封装了多项开启即用的分析功能,能够快速实现数字营销优化、社交网络分析、欺诈侦测等。
究竟如何打通SQL与MapReduce?孔华宇如此总结:“Teradata并行数据库注重在操作系统和数据库上的研发和优化,而Aster不仅仅支持并行平台上的数据库,更支持包括MapReduce引擎、文件文本分析引擎在内的其他引擎的综合应用。我们在统一数据架构下,通过与开源厂商Hortonwoks合作,通过SQL-H等高速连接器,Aster对外界面可以用SQL交流,对内可做灵活分析。用SQL的时候,是运行在数据库里,而需要用到MapReduce的时候,我们会把数据引导到同一台服务器的MapReduce引擎里面去运行,然后再把输出的数据返回数据库,不需要把数据在不同平台和服务器间搬移,等于给分析人员提供了一个瑞士军刀,他们可以用最合适的工具来完成他们的工作。”
孔宇华还强调, 上不上大数据要从用户的实际情况和具体需求入手,从技术平台、流程制度、人员技能三个方面保障获取数据价值,要选择成熟的大数据平台,且要和数据仓库有高性能连接,易于让不同人员应用,找到并了解国内外不同行业的大数据应用,灵活借鉴案例和经验,结合大数据需求的敏捷项目管理方法,根据业务需求快速让技术人员利用平台去提升数据的价值。最终目的就是让大数据这个“旧时王谢堂前燕,飞入寻常百姓家”。孔宇华感慨地说。
案例分享
从4天到1个小时 大型在线扑克公司的反欺诈术
欧洲的一家大型在线扑克公司的员工在爱尔兰,机房建在加拿大。在这家公司的网站上有虚拟牌桌,6~10个人一桌在线玩德州扑克。该公司的盈利模式很简单,就是从赢者那儿以0.5%的比例提成。所以在线玩游戏的人越多、玩得次数越多,该公司的盈利就更有保障。
除了吸引更多人来玩在线扑克,公司更重要的是做好反欺诈工作。玩这种在线扑克时的欺诈行为一般有三种类型:第一,不同玩家线下串谋,线上打配合以增加玩家自己获胜概率;第二,洗钱,通过信用卡故意将钱输给下家;第三,外挂,有的研究算法比较好的人会自己写程序然后挂到网站上,比如同时玩100桌获得盈利。
该公司需要将这些欺诈行为全部找出来,识别不同模式。例如,他们通过分析玩家每一轮下了多少注、不同玩家之间下注的时间间隔以及非常规打法的记录等大量数据,就可以判断这些玩家背后是真人在玩还是机器外挂在玩、是否有线下串谋等欺诈行为。
为了识别欺诈,该公司请来了三位毕业于加拿大某学校的扑克牌专业的博士通过算法识别欺诈行为,并开发反欺诈程序。过去,他们是将这些记录的结构化数据压缩成一个文档放到数据库里,需要分析时将文档调出,用他们花费一年半开发的Java软件运行分析,需要4天结果才能出来,也就是如果礼拜一有人做了欺诈行为,事后到礼拜五才能找出来。
现在,该公司用两天时间将算法移植到Teradata Aster平台之上,通过一个开源的解压代码把压缩的资料在库内做解压,然后在数据库系统内运行欺诈分析。这种做法的好处是大批量的数据不再用传来传去,再加上算法优化之后,原本需要4天的欺诈行为分析只要60分钟就可以完成了。
这对于该公司来说不仅是性能的提升,他们还可以有更多的时间来开发新的防欺诈的商业模式。道高一尺,魔高一丈。该公司在欺诈与反欺诈的较量中,必须跟上甚至超前才能更好地解决问题。
案例点评
该在线扑克公司需要更及时、更频繁地进行欺诈分析,及时发现欺诈行为。这是一个非常典型的大数据案例,在线玩家产生大量并发数据,记录玩家行为的数据量非常大;它是在多种数据(压缩文档中的非结构化数据+玩家信息等结构化数据)之上执行复杂的分析;库内就地分析加快了分析的速度。Teradata Aster平台带来更高的性能,让该公司的分析师有时间来运行更复杂的算法,更快地识别骗子;而能更快开发的环境,更让分析师可以按照他们的思路,持续更新调整他们的分析算法,比骗子快一步,达到未雨绸缪、防患于未然的目的。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。