扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在大数据环境下,如何提高其面对各行业的应用情况,是落地大数据的必备功课。在昨日召开的IBM大数据与分析论坛上,IBM大中华区系统与科技事业部技术总监李永辉先生对IBM大数据五大应用场景的实现路线图进行了详解。
首先,在进入五场景之前,先要搞清一个最基本问题,就是你的大数据从何而来,李永辉总结为三方面:第一是传统结构化的数据。随着今天技术的提升,信息来源的增加,怎么样可以有效地帮助客户处理有关的结构化信息是一个新难点。基于此,需求新的技术出现,像闪存技术,同时IBM也收购了TMS,增加了自主的技术,加强数据处理的速度。
第二是非结构化数据。众所周知,移动互联网的产生,社交媒介的飞速发展,产生了大量的数据,让这些数据有价值,就需要能够有效地利用这些数据,挖掘有用信息。
第三,流数据。不论工作还是生活,我们周围都存在众多的传感器,不管你喜欢不喜欢手机的信息,监控的信息,通讯的信息等等,这些流媒体产生的数据也不容小觑,对于这样的数据,又该如何有效抓取,进而实现其自身价值呢?
这就是五大应用场景出现的时候了,第一个使用的场景,就是挖掘新的数据来源。
在该图里很好地把整个架构列举出来,底层起从左往右看,第一个是Streams,IBM Streams软件可以帮助客户抓取流数据、分析流数据,它的特点在于快,当然也更符合流数据对于精准性的要求不高。第二个Insight,也是IBM提供的企业版Hadoop架构BigInsight,适宜对非结构化数据的深入分析。接着最右边的就是Data Warehouse,因为在大数据时代,不仅有非结构化数据的快速增长,结构化数据的增长幅度也绝不示弱,Warehouse也就是用于传统的结构化数据。同时,DataExplorer,它就像一个智慧的大脑,将存储在数据仓库里的信息变得智能,加强它们之间的关联性。
IBM在这方面也有相关的软件,它主要向计算应用提供KPI,将用户的应用与抓取所得信息结合,构造一个专为客户打造的用户平台。例如IBM Cognos,一个报表分析软件,从多个数据库里,不管是结构化还是非结构化数据,将抓取的有用信息,变成一个有效的报表分析结果。同时还能从报表的历史数据中,预测未来数据结果。这也就是IBM 的SPSS软件,建立一个数学模型,并依照收集数据的特征进而推测未来一段时间的发展。这很适用于气象预测,IBM的一个案例就是在这方面和气象局的合作。
第一步已经做到了收集数据,下一步就是看如何分析数据。分析数据可以说是一个循环过程,因为随着新数据的不断出现,分析将会永无止境。在此,就要先明白你的分析是为谁而分析?李永辉表示IBM认为,分析是希望增强对客户360度全方位的视图,希望透过分析,找到一些跟客户有关联性的内容。对于传统行业来讲,像医疗行业,传统方法是用流程来进行梳理的,而现在采用了360度视图分析,就可以把病人的履历、过往的历史、药物敏感史、先前的治疗病例、家族遗传病等都可以抓取进分析图中。
那么这种全方位360度客户视图又是如何架构的呢?首先要取得信息来源,从企业里各种各样的数据库里挖掘所得。之后再透过IBM Master Data Management产品,将大数据库整合以提供一个统一的数据。借用Cognos分析系统,建立更有用的数据分析报表功能。并通过IBM DataExplorer,把不同数据源的数据整合起来,变成一个统一的图象界面,自此一个全方位的客户视图就搭建好了。这样的应用是不是更适合众多企业的客服部门呢?当客户打电话给客服的时候,在最短时间内,可以把同一个人有关的历史信息全部抓取出来。
大数据除了对外为客户所用外,对公司内部的运营也可以提供一定的帮助。运营环境分析较之一般客户有一点不一样,除了人为产生的数据以外,很多情况下是数据产生数据,也就是机械产生的数据,机械产生的数据可以来自于设备本身,也可以来自于物联网、传感器提供的有关信息,可以是静态的,可以是非结构化的,或是流数据。在大数据环境里,怎么样可以有效地把这些数据一起抓进来,有效地帮忙提供分析,在运营的环境里是一种经常使用的场景。通过各种设备:像智能电表、监控器、传感器等等收集的数据,加之分析,提供实时预测,预知某些设备需要维护等等。
在运营分析过程里主要分为两个类型的使用,一种场景是流数据分析,通过SPSS预测推算工具对传感器数据进行有效建模的分析,提供实时流数据分析。另一个是收集数据,可以抓取实时数据放在I/O吞吐量很大的平台BigInsights上,再做建模分析。
第四个是数据仓库的增强提供分析,数据仓库的增强主要来自于几方面,第一是尽可能多利用多元化数据。第二是数据的选取,对大量的数据学会取舍。大数据,并不是所有数据都要,是要抓一些有用的数据才有意义。
基于此前提,李永辉讲到IBM提供几种解决的场景,第一种是Pre-Processing Hub,通过流数据,可以把它放在BigInsights里面进行数据处理,然后再进行分析。如果流数据重要性不是很多,用完之后可以马上抛弃,一般来讲秒级以内就可做好分析。Query-able Archive是可查询的数据归档,也就是对数据仓库里的大量数据进行有效管理。可以把传统的数据,一些不经常使用的或者一些过期的信息,放在Hadoop架构的BigInsights中,因为此架构I/O吞吐量比较快,对相对传统结构化数据来说成本更低。Exploratory Analysis是数据挖掘分析。因为新类型的数据主要有两类,一类是非结构化数据,第二个类型是流数据。透过IBM软件解决方案,可以将这两类数据结合传统结构化数据,进行统一分析。
最后一个场景是安全智能扩展,大数据的产生某种程度上跟安全性也有很大的关系,一方面是大数据本身,注意获取来源的合法性。另一方面,大数据的体系架构非常适合针对一些安全性的应用,通过分析大数据的所有类型和来源,增强传统的安全解决方案,以防止罪案发生。比如分析一个罪案的时候,可以把打电话信息跟交易的信息,网上信息等等做一个关联性的分析。
尤其是在金融行业安全性也非常重要,主要有两方面,一方面是防止欺诈,预知交易的潜在问题。另一方面需要满足安全的遵从,可以将数据管理员跟分析人员工作划分。例如,当一个人下载了某一个信用卡的交易,如何在金融机构里抓取到这个数据?传统情况下,数据库的管理员自行进行扫描,抓取数据。但是现在可以通过第三方监控,在只读环境中,清楚地看到此人的相关信息,而不会被修改。这样产生的分析报表,可满足各行各业,政府监控的需求,从而建造一个更安全的的大数据环境。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。