主持人:
各位嘉宾,各位来自各行业专业人士,女士们、先生们上午好。欢迎参加2012第二届大数据世界论坛。很高兴主持这次论坛与各位嘉宾进行这次愉快欢乐分享。我了解大数据两件事,第一件事,我看浏览数据时候发现75分钟视频,不是大片很难有人从开始看到最后,我们看到1000多访问量背后有200多人从开始看到最后,并且谈出自己的看法。还有一个事前两天阿里集团的陆照喜(音)被任命为首位CDO,很多媒体谈论CDO会不会讨论CIO职位。
正因为此我们在一起,我们在大数据中,只是我们不知道,我们每天拿着IPAD制造大数据。因为大数据我们相聚在此。很高兴和今天这么多朋友一起讨论大数据话题。大数据让我们技术化不冰冷,让世界更智慧和灵动,给很多东西赋予生命力。
今天大会主题是海量数据深度分析和智慧商业。其实海量分析,我们知道大数据有几个代表,有速度,有价值,有它的广度,其实第一个词海量数据是广度,智慧商业是使用价值。覆盖了大数据管理的有巨大需求的所有行业共同探讨大数据领域前沿话题和发展趋势,探讨如何更有效使用大数据,捕捉存储管理和分析海量分析,支持企业决策和业务发展,实现大数据商业价值。对任何企业而言数据是最关键重要的。我和CIO聊企业最关键是什么,一个安全一个数据,没有安全数据都没有,没有数据再安全一无所有。
商业决策越来越依赖于数据,没有数据什么都没有。下面有请曹宇钦带来从商务智能应用看大数据的发展路线图。
曹宇钦:谢谢大会主办方给我机会跟大家分享我们对大数据和商业智能的一些看法。
首先介绍Forrester,专注于IT研究的第三方研究机构,希望今天演讲给大家一些想法,希望引发一些探讨。
根据我们最新研究,在去年2011年全球IT开支增长11.5%,我们看到因为首先金融危机影响,包括欧债危机风波影响,从去年第三季度,全球IT企业对IT支出的投入逐渐有一个谨慎态度。
我们看到2012年全球IT我们预计IT支出增速会逐渐减缓。看到亚太区,在2011年整个IT开支13.6%,但是预计2012年他们的整个亚太区开支降幅达到5.8%。我们可以看到对于一些新的技术,我们对于企业来说,他们在投入一些,尤其对新技术投入来说会越来越谨慎。企业不会为一些全新技术买单。
我们看到回到今天主讲话题,我们认为大数据是一个全新技术吗?是企业愿意花更多钱在这方面未来主要投入方面吗?根据Forrester定义,我们认为大数据是某些技术或者能力,能够帮助企业迅速敏捷处理海量数据。
我们一贯强调的大数据我们认为不是一个全新的技术,我昨天参加一个座谈会上讲的一样。我们会认为大数据最主要是帮助企业能够在现有的数据,包括已经产生数据做一些整合,相应做少量投入得到更大回报。我们认为从技术的投入角度来说,其实全球IT开支更谨慎,我们认为不影响业界对于大数据的投入投资。所以我们看到我们认可大数据在业界发展是快速发展的过程。
从IT投入角度我们可以看到,无论是我们现在讲的大数据,还是讲的商业智能或者相关的数据一体机,他们的理论是一致的,相对于这些数据给到企业带来的价值,我们会认为对在这些技术方面投入来说,相对是比较少的。
Forrester认为我们应该关注大数据,最应该关注大数据从什么地方来的。我们认为大数据可以来自从企业内部外部,包括企业的应用,企业的内部运营管理,生产线,企业员工销售,包括一些像企业外部的一些信息,包括我们现在火热的社交媒体,包括大众社交,也包括商务社交移动互联网应用。
我们谈到一些对于大数据的数据来源,现在很多企业比较头疼怎么样处理除了传统PC服务器端数据之外要考虑新的数据。像移动设备,我们看到整个智能手机出货量,2010年第四季度超过传统PC出货量,移动化企业应用对于企业员工可以在任何时间任何地点获取企业信息,能够实现通信功能,能够实时进行协作。
我们也看到很多智能终端现在越来越具备了类似服务器一样的计算功能。从企业外部数据,海量数据来自社交媒体,现在社交媒体是火热话题。包括厂商,包括服务商,包括一些最终用户企业,他们结合自己的特点,希望从社交媒体合作中挖掘一些新的商机。
我再给大家举简单例子,传统零售行业,他们传统上一般通过直邮,或者通过短信或者电话沟通方式维持和客户联系。我们看到零售商向电子商务转型,如果他们能够把电子商务加上客户关系管理,加社交媒体,能够有机整合起来,做一个实时和客户进行沟通互动,我们认为对整个零售行业是一个巨大的变革。
所以说通过采用大数据一些技术,能够帮助一些零售商,实时与客户沟通,寻找客户需求,满足客户需求,给客户充足理由作为他们的购物对象。
在我们弄清楚了大数据来源之后,企业才有可能找到相应的,或者设计出符合他们的大数据工具。我们这里看到商业智能是其中一种我们会认为真正帮助大数据分析,在企业内部能够实现技术发展的一个主要应用方式。
我们看到大数据规模应用对于商业智能分析主要影响力来自三方面。
第一方面,我们认为目前来说企业对于数据仓库投入比较缓慢,主要原因是绝大部分客户希望一个更快的投资回报,传统上企业在数据仓库投入他们如果取回投资在5到7年时间,这与他们现在绝大多数客户希望的12到18个月投资回报周期不相符。我们认为客户对于投资回报使他们认为大数据方面商业影响的主要影响。
第二部分我们看到整个信息会趋于越来越复杂化,我们听到越来越多声音,我们得到反馈,他们认为整个数据量增加远超过他们预期,我们认为企业现在目前面临是一个更复杂的数据环境。对于数据量的增加,企业应该关注不同种类数据融合收集和整理。通过不同的数据的尤其对于企业内部一些来自业务层面需求,对一些尤其是企业对于一些传统的财务或非财务以外信息分析能力,也是企业看到对大数据规模应用对商业智能分析的一个影响。
最后一部分我们认为现在随着企业越来越多采用或者已经实施对商业智能分析平台,企业面临问题如何管理多种平台,如何感觉来自不同平台不同应用环境的数据管理。
这里给大家展示商业智能架构,没有说一个标准的正确架构,只是我们看到现在很多企业他们在构架他们的商业智能的时候往往采取类似这样的一个架构。在这个所有的模块里面,我们看到企业应用越来越多的是中间的虚拟数据商店,我们做三个层次,下面是资源库,上面数据收集,最上面结果展示。整个商业智能架构不是单一数据库,是一个海量数据融合,是通过无缝连接的资源库。
我们认为整个商业智能会最终演变,我们可以说简化为四个这样的循环的流程。从明确目的到实际表现到诊断到发现机会,再明确目的这样的循环流程。
我们认为商业智能对生产力的影响主要三方面。
第一方面我们提出和信息相关还是和流程相关生产力,并没有一个完整的方案,我们会认为对于一些信息相关生产力可以容易找到信息,但不够,与决策相关信息,可以更快时间内做出,这样子很快做出决策我们发现准确性有一定折扣。
第三种我们认为与流程相关生产力可以使某些流程时间加快,不适合所有的流程,我们认为流程优化节省时间没有复制到每个流程。我们认为更好更容易获取信息不能保证这些信息更智能的应用。即使使用更复杂工具也不能保证这点。
在大数据时代我们认为更重要不仅仅在于数据,在于流程。以往来说很多IT趋势我们认为由IT厂商提供的,我们看到随着社交媒体和协同的越来越普及化,越来越多的最终用户包括企业用户,对于IT趋势的影响重要程度越来越高。我们认为商业智能的流程制订决定企业业务表现,但是必须更好的把客户加入进来。
最后我有几个要点希望对今天演讲做简单概括。大数据来自企业生态链各个环节,可以来自企业内部,包括生产线,包括员工,可以来自企业外部,包括社交媒体。大数据的商业智能分析过程是驱动企业的商业表现,接触和体验将商业智能工具流程尽可能多切入组织系统实现。外部数据能够为内部数据增加价值。相比完美的数据,恰到好处的真正符合企业需求的数据往往能够提供更多更有价值的洞察。
我用几句话总结我今天演讲。我们强调大数据不是一个全新的技术,最终用户投资大数据不仅仅寻求海量数据收集整体分析,能够数据和业务结合,帮忙使用者解决问题,这是我们Forrester提倡的企业应该从IT向BT转型的一个趋势。谢谢大家。
主持人:
曹总上来问一个问题,大数据是全新技术吗?我得到一个信息,大数据可以来自企业内部可以来自企业外部,可以来自社交媒体,来自产业链。我们知道微软收购了YAMA(音),我们做了类似的企业社交的内容,说微软收购YAMA(音)之后会不会引起收购的导火索。企业内部的ERP过来数据更多是结构化有序的。我们从社交媒体这个端过来是无序的。
如何去处理这部分数据,主要挑战在于无需设置复杂的分析,分布式存储如何有效处理数据。下面有请微软亚太研发集团首席技术官演讲。
孙博凯:
各位早上好,我的幻灯用中英双语的,非常高兴来到这里,首先向主办方感谢,感谢他们给我这个机会,感谢观众来到我们会场上。
我从事这个行业已经有20年了,14年前我在微软,我职业生涯中,大部分时间在做数据以及数据相关技术,事实上像我这样的数据的激动人心时刻,数据库,大数据已经成为了变革的中心,事实上我们可以称为一场革命,不仅仅在数据领域,也在其他行业,零售业,制造业,甚至是政府感觉,科技。大数据改变了整个社会的运行方式,因此我们称之为大数据新世界。
下面30分钟跟大家分享关于大数据的新世界这样的简单分析和观察。在我们讲大数据之前首先看一些主要趋势,这是一些主要趋势推动了这场大数据变革,大部分人非常熟悉其中一些或者全部趋势。但是我们需要用一个全球眼光看。
大家已经意识到移动设备的爆炸,每个人都有一个或者一个以上移动设备,现在全世界的移动设备用户可能已经达到55亿,事实上这占全世界人口70%以上,是非常激动人心的数据。同时社交网络有越来越多的用户。
这种连接性是基于什么?就是网络,网络流量,爆炸式指数式增长。我们看到几年内数据流爆炸式增长。我们预计会达到100亿的传感器联到网络上,甚至传感器数量超过人口数量。
另外两种技术趋势有驱动作用,一个是价格低廉的计算,价格低廉存储和计算是大数据主要驱动力。什么是大数据,是海量的,巨大的。不仅仅是数据量,广度分类,还有速度。这代表了速度和类型复杂性,代表了数据的这种复杂性。
我们看10年15年前,有ERP和CRM数据,来自产品销售以及客户数据。随着WEB2.0时代兴起数据量攀升,数据分类不断丰富,网页、文件、日志。新的数据存储形式不断兴起,我们需要数据平台进行分析和存储。
今天大数据时代,电子商务来自传感器数据流,太空数据,我们有更多新数据类型,衍生速度非常快,规模非常大。因此我们可以看到三V就是量、速度和类型三位概括了大数据。
为什么我们如此关注?我们有一些是做技术的,我们非常关心,其他人为什么关注这个问题?事实上大数据可以使我们问出新问题,来了解我们的业务,我们的商业环境以及整个世界的观察方式,我们考虑社交网络分析,公司一个品牌,即使是个人也有品牌,如何分析品牌影响力如何,品牌多强,人们是否喜欢你的品牌。
这些问题之前不可能被容易回答,现在大数据时代我们可以容易得到问题答案,几乎是实时很快的速度。如果你有一家物流公司,有运输工具,你希望优化车队,实时交通信息以及其他类型信息,现在通过传感器,大数据技术可以做到这点,即使是其他的一些分析使我们不仅仅对过去对现在对未来提问,如果发生情况怎么样,如果开始一次促销形式怎么样,如果不开发新产品怎么样等等。预测性的分析,大数据技术使之成为可能。这个问题关于过去和现在甚至关于未来,大数据使之成为可能。
当然大数据意味着大商机,这是重中之重的,对于CEO、CIO来说,已经开始做大数据,为什么?因为研究结果表明,公司或者组织利用大数据技术而另一个公司没有利用,未来他们财务状况会出现明显不同。因此大数据成为了竞争力,事实上我们要保持自己的竞争力,要保持竞争优势必须采用大数据技术。如果我们是做大数据相关的软件或者是应用,应用解决方案的话意味着大商机。IT业增长5%到10%,大数据服务未来几年达到30%以上的增长。产值达到100亿美元之上,意味着来自需要不同产业,包括微软大公司的投入。
我会讲一下微软以及我们对大数据的处理方式。大数据不是一项单独技术,经常人们认为大数据说这是一种技术,但事实上这意味着管理,大数据端到端生命周期,我们讲大数据周明周期是三步,管理数据,如何获取存储,保护安全,并且管理数据。下一步如何丰富数据,如何保证数据的清洁,如何发现其他的数据。与其相关的其他数据,如何与其他数据联系起来,如何从数据中得到洞察力。不是关于数据本身,而是关于洞察力。
现在我们来一步步的看。微软一直做SQL平台,现在数据库50%以上用微软的SQLServer,我们非常注重,10年前我们有一个愿景,建立这样的体系,可以管理任何种类,任何大小任何来源数据,无论是数据中心还是智能终端还是云。我们一步步的正在实现这一愿景,SQL是非常综合的平台。比如说空间数据,图像以及数据流,数据流非常重要。
我们也做这种高性能的数据存储,数据和获取,很高速度把数据存储介质以及捕获这些数据越来越具有挑战性。
我们有很多版本的SQLServer,今年推出2012版,我们客户分布北美、欧洲、亚洲,现在我给大家展示一段视频看客户反应如何。
(播放视频)
非常好,SQLServer对于关系型数据管理是成熟平台,非关系性,比如说HADOOP近几年成为了关键技术,是非关系性或者非结构数据的处理成为可能。我们非常高兴能够做HADOOP集成在数据平台中做集成。可以在自己环境中进行处理,或者用公共云平台。因此我们现在在做这个HADOOP集成,不仅仅把HADOOP放到Windows,事实上我们做的优化,这意味着什么?很容易应用很容易部署,安全,可扩展性,绩效管理都来自微软平台,这一切HADOOP带来新的机会。
之后给大家用视频解释。在这里一个关键的特征就是HADOOP在微软的WindowsAzure。这不是简单过程,需要几天几星期时间做HADOOP集成,在WindowsAzure一个小时可以完成。
事实上我们可以看到我们希望在微软平台上优化HADOOP,现在讲一下方法,对于HADOOP以及开元的方法,我们希望有一个开放灵活的方法,把HADOOP放我们平台,我们和关键供应商进行合作。保证我们的平台是100%的ApocheHadoop运行。我们和工具运营商进行合作来保证我们有适当的工具做这个微软的HADOOP。我们在Windows回到社区。我们可以把IDC连接到HADOOP上,我们采取非常开放的灵活态度和HADOOP整合,整合到微软技术上。
我们之前讲到数据管理,现在讲一下如何来丰富数据。丰富数据意味着什么?刚才演讲人提到的,事实上是把数据和世界其他地方数据连接起来。如果传感器、网站、手机上接收数据首先保证是准确的,发现一些附加数据,如果我们可以把自己的数据和外部数据整合起来,从中得到洞察,现在我将给大家举例子。
如果从事销售行业有一些客户,你希望看到自己的业绩表现如何,这不仅仅关于自己的表现如何,要看公司内部同事,看他们业绩如何,自己做的比他们好还是差,或许看其他的公司,有一些是你的竞争对手,有一些合作伙伴,他们的业务进展如何,比他们好还是差。或者你想看全世界数据,全世界发展速度是加快还是放缓,对我业绩有什么影响,我们端到端观察,不仅仅数据还有公司社区和全世界数据,这样才能洞察创造价值。
微软平台提供一个非常与众不同的方法,在其他平台没有,在WindowsAZURE有一个数据集市,这是一个非常与众不同的概念。数据集市意味着什么?如果是一家公司,或者是一个零售商或者制造公司,你可把这些数据放到微软数据集市,为其他方利用,无论免费还是你自己定价的任何价格,取决于应用模式和价值。
开发商他们希望用这些数据的话,可以在WindowsAZURE用这个数用,并且用应用工具得到你作为内容提供商提供的数据。如果希望从这些数据得到洞察,可以用这些数据,或者把自己的数据和提供商提供数据结合起来得到商业洞察。
现在我们在数据集市上有千个提供商,有提供空间数据的,世界银行,甚至像中国的内容提供商。我们可以看到这是微软平台与众不同的特征,数据集市是多赢的结构,无论是对于开发商和从事信息各个方面。
我们现在看到了数据管理的丰富,现在看如何从数据中得到洞察。为每一个数据提供洞察力,微软能够为任何用户提供洞察力,不管他们在哪里用什么设备,这是我们平台独特创造的地方。
可能现在有很多人他们不记得20年前E-MAIL在商业里的应用,如果在大学中只有教授有EMAIL,学生没有。这是我们的一个观点,商业智能有的时候当然在现在也就像过去一样,现在商业智能在最高层领导使用,不可能在任何一个企业每个员工有这样的工具,不可能每天这样的设备。我希望他们能够提供这样的洞察力,在所有的数据中,不管是关系型,非关系型还有流线型。有很多这样的数据,我们把商业智能引入到我们平台中。现在这成为了我们平台重要组成部分之一。
现在还有新的一些工作机会因为大数据产生,在IT行业中我们有数据科学家,可以看到在北京有很多这样的工作岗位招聘人员,我们必须用合适的工具对各种终端用户提供。比如他们不是科技人员,或者他们只是商业的情报分析人员,我们需要给他们提供这样的工具或者是数据科学家我们更要提供这样的工具。
现在让我们看一下我们熟悉的一些工具,当谈到这些组织中不同的人员数据,科学家,他们可能有学位,他们对数据有很深了解,他们也能够分析很多这样的数据,并且利用这样的工具分析数据。微软也是与很多工具提供商进行合作,来让数据科学家能够在世界其他地方利用其他平台工作,还有商业智能专业人员。他们还是希望有更加互动的工具,让他们对数据切割,能够更实时的来对数据有更深入的了解。他们不一定像数据科学家那样处理数据这么大,他们处理数据有相当大的容量。
还有一些业务分析人员,会给大家看一个视频。还有一些商业分析人员他们需要处理他们的数据。因此微软是采取了非常综合的方式来提供商业智能工具,我现在不可能有时间一一列举,给大家展现一段视频,看一下我们最新在2012年这样的工具,为商业人员提供的。在视频中可以看到人们可以分析汽车的数据,他们有汽车销售,有根据他们的季度,根据地域的数据进行分析,这是完全根据网络分析的工具,非常互动的非常流畅的工具。这是我们的一个为商业智能人员分析的平台,有不同车,有销售额,有不同车型,有紧凑型,SUV,新能源车。在底部大家看到我们有商业分析人员,他们给大家展示一个销售额,不同类型车进行分析,不同类别,每个类别有相应的销售额展示。非常互动,非常流线的,他们是实时方式进行分析,可以改变它的容量,并且对它进行分析。
大家看到我们给用户提供的体验是独一无二的,特别是商业智能人员。在右边大家看到一个模式,他们在驱动整个的模式,这个模式中有很多条件可以选择,现在选择时间段,想看某季度销售额,这是非常实时的,这个数据进行实时改变。可以看到同样的数据,现在展示一个不同的图表,下面的数据是展示销售额,在上面我们可以看到每一个数据所对应的油价,可以看到不断上涨或者下跌的时候,不同车型,比如新能源车或者SUV销售人员上涨或下跌。我说过不是自己的数据,而是将你的数据和世界相联。如果油价上涨3个月之后新能源车价格会上升。而这是几分钟得到的。希望大家了解我们提供这样的工具原因,因为最终是关于数据容量和大小与其他的数据相互的连接。
现在给大家看客户的事例就是云,可能有人没有听说过,KLOUT这个公司做的是连接超过10亿的数据源,社交媒体中获得的数据,我们要做的提供一个对每个品牌和合作伙伴生成一个分数,他们的业务不仅是零售,可以看到这个大数据能够提供一种全新商业模式,他们可以利用这样的平台和这样的数据来实现业务的可持续发展。
大家可以看到我们的副总裁他的评价。因此我希望大家能够意识到大数据并不止是某单个数据,是综合的,端到端解决方案,如何管理数据,关系型非关系型,不同类型的大数据如何丰富,并且和其他数据相联,与世界数据相联,并从中获得洞察力。
在微软我们也是致力于提供端到端平台,用更高的集成和更多的平台给大家提供这样的市场上好的产品。这些可能很多人非常熟悉我们的一些产品。我给大家提供一些其他可参考的链接,大家看到我们平台信息。如果想了解更深入或者是试一试,或者试一下HADOOP平台,可以登陆这个平台,我们接受大家的申请,这个平台不是向每个人开放。谢谢大家。
主持人:
一个管理一个丰富,大数据需要与世界数据相联,他最终提到洞察力,前段时间我们做大数据视频节目时候,我们说有一个女孩她每天用香水,突然一个电子商务网站突然给她发来一个信函,推销广告,怀孕后应该用什么产品,他父亲特别生气,我孩子没有结婚怎么发这样的广告,没有想到几天之后,她女儿告诉他她怀孕了,为什么知道?从购物习惯知道的,用怀孕之后用的香水,通过这种数据可以分析到这个人潜在的升级。下面请刘总演讲。
刘政:
大家好,在去年的时候我们开了第一次大数据会议,当时赛仕没有做报告,只是派人参加。我的一个感觉在去年的报告里面,大部分关注的还是在大数据的发展趋势,给我们带来什么样的影响,另外一个是硬件的公司比较多一点,介绍存储方面的东西。唯独缺了数据分析,我们知道大数据如果没有分析的话其实是没有太大价值的东西。我们可以不用管。
最关键在大的数据里面存在着价值,这些价值是如何体现,如何展现给大家,如何给大家带来真正的市场竞争力,还是要通过分析来达到。
今天给大家主要介绍一下SAS去年年底发布的一个产品,我们叫做高性能分析,我们在5月份在欧洲做了路演,现在在亚太区做路演,应该说它的影响非常大,如果大家要是有这种感觉,比如在第一次看到微软的Windows95的时候,第一次从使用猫上网的感觉,对我们人员来说应该和这个有差不多一样的感觉,非常震撼人心的事情。
接下来给大家介绍这方面的东西。我的一个感觉,无论在台上人演讲水平如何,我们的PPT做的非常不错。这是大数据来了,在大数据来了以后,方方面面各行各业其实都牵扯进去了。很多互联网我们可以各种各样题目,你说你关注东西不在这个网上不可能,我们各行各业都牵扯进来。
美国政府在3月29号对外发布一个报告,就关于关注在大数据方面的,美国有5、6个部一起发布的一个信息。我们知道美国在过去几年曾经关注过信息高速公路就是互联网,还有就是物联网,包括这次的大数据。我们可以看到美国政府对这个方面是非常重视,这5个部里包括美国国防部。
我们来看一下大数据的量级。根据麦肯锡调研,前段出一个报告,大数据给我们带来哪些影响。其实现在已经涉及到各个领域,把数据与资本和人力一起作为生产的重要因素,我们原来学习社会经济学我们都知道资本人力和生产资料是主要因素,现在把数据也加进来了。
再有一个非常关键的地方,我们在给大数据定义的时候都是讲到三个V,其实还有一个很关键的地方是大数据的价值,如果没有价值的话我们就没有必要开这个会议了。
再有能够充分利用这些数据就能够给企业带来竞争力,当然这个大数据对不同领域影响不一样,主要是由于各个行业对数据的敏感度不太一样。再有就是人力资源这方面应该说非常匮乏,包括欧美,欧美现在在中国市场寻找这方面人才,他们不知道中国这方面更匮乏。我大概了解一下学统计的人,相当不是去国家统计局就是转行做别的事情,其实这些是非常优秀非常关键的人才。
将来一个国家竞争力很大程度决定分析人员,将来的决策我们都希望通过数据来说话,通过数据分析得到结果来做决策,分析人员的水平对于一个国家的竞争力,对于一个企业竞争力非常重要。
随着大数据出现带来方方面面问题,这样我们的一些政策,一些管理方面的政策会要相应的发生一些变化。这是大数据带来的一些机会,我们看到下面几方面都是上千亿美元或者英镑的价值。确实还有很大利益,如何在这么大一块市场中占你的利益,从这里面得到自己的利益,你要对大数据做分析。
每个人谈到大数据谈到这三个V,SAS我们又加一个V,就是价值,通过分析得到价值。
大数据来了以后各个企业会去应对,想方设法更新自己的硬件,去买设备去存储。在最开始的时候把数据存储起来主要为了查询,一个人在银行开一个帐户,这个人过段时间还回来,我们通过查询方式,我们可以把这些东西全部查询出来。这个查询有一定的价值,当数量非常大的时候,在集群情况下,我们有上千万上亿的数据的时候,群体的趋势是什么样的是我们要通过分析才能得到。
比如在银行里面大家都知道有一个二八定律,20%的人是什么样的人,他们身份怎么样要通过分析做。如果我想通过人员来查要花多少年查出来。在大数据时候,数据分析的手段是关键,只有通过数据分析才带来价值。但是传统的数据分析能力无法处理这么大量数据。我们在平常分析比如上千万的数据量或者是上亿数据量会花几十小时,好几天时间才能够得到一个结果,这个速度远远满足不了我们希望。现在数据存储达到10亿的时候,那个时候软件根本运行不下去,有时候可能好几十天,这个速度人们无法接受。在新时期,在大数据时代,我们需要高性能分析的分析软件。
传统分析技术有哪些困惑,分析手段限制不能充分利用所有数据,学统计知道,如果分析能力不到,取样时候可能取小量,取多了运算不下来。样品量越大,里面含的信息越多越完整。我们希望能够对所有的样品量做一个分析。如果要分析手段达不到,所使用数据会受到限制。再有就是没办法对复杂数据做分析。
大家知道建模,有干扰量,修正量这些东西,分析手段达不到这些精度会受到影响,会使用简单的一些简单的模型。再有复杂需要不断的去叠带,去得到结果,叠带次数太多运行不下去,过去分析手段会受到一些限制。
想得到最好商业结果,分析工具分析手段必须要有能够达到最高的精确度,要有前所未有的性能,就是运算能力和速度,达到最大深度和广度,只有这样才能带来最好的商业结果。
在50年代的时候一个美国飞行员发现的一个方法,就是在跟敌人作战的时候通过哪些方法指导决策或者行为,定义就是OODA这么一个方法,如果你的决策比对手快,你就能够占先机,争取主动,能够提前发射。在那个年代应该说多弹技术不成熟,基本用高射机枪在飞机上,雷达技术不先进,当时需要雷达和眼力观察敌机,发现之后要有一个取像过程,当时不在正前方,在左前方甚至背后要调整方向,把枪口对准他,然后做决策,比如距离太远,现在枪够不到,然后等你飞行到射程内才能决定开枪,这样的过程,说明什么?说明速度在你做事情过程中是非常重要的。
左边如果你认为是自己的话,在做观察调整,还有决策,行动的时候明显比右边快。横向轴是时间,当左边已经开始行动的时候,右边连决策还没有做出来,所以左边明显比右边在速度上有一个优势。
我们刚才其实很多都是在讲分析工具,讲到分析方法,其实在大数据分析方面,你要有一个完整的战略,不能说我买SAS高性能分析软件可以做大数据分析,应该和企业架构,还有分析的战略有非常大的关系。
接下来是一个企业做分析的生命周期,每一家企业可能都是不一样的,但是他们做分析的生命周期应该是一样的。如果我们按照这个分析的生命周期对我们一个固有的数据做分析的话,并不会带来太大的利益或者是一个优势。你应该要不断使用这种方法对你不断变化的数据进行分析,这个数据原来比如有这么大量,随着时间会不断的增长,随着数据增长时候要不断使用生命周期对现有数据分析,这样才能带来大的竞争力。
接下来我来给大家介绍一下SAS的高性能分析软件主要的架构。其中包括三个最重要的组件或者计算方法或者架构的一些变化,第一个就是网格计算,第二个叫库内分析,第三个叫内存分析。接下来对这三个组件做一些详细的介绍。
网格计算大家应该比较清楚就是谷歌使用的架构,是使用很多非常普通的机器帮助他做搜索运算,在我们做分析的时候我们也可以使用这种方法,可以充分的利用所具有的硬件设备做网格计算,这样可以把你的工作量分配到不同机器上,这样就可以极大的加快运行速度。现在我们知道SAS有一个编程的程序,SAS语言,我们现在的SAS语言完全支持网格计算,可以把SAS语言可以放到不同网格上做运算。使用网格运算设备有完全可用性,分布处理,可以提高速度。
这是一个网格运算的案例,这是澳大利亚一家通讯公司,这家公司和我们网通和移动差不多,想维护客户关系,不希望他的客户流失到其他的竞争对手那里,对客户一些行为做一些分析。在用过去的分析方法的时候要用11小时预测,有一个分析模型。在使用SAS新方法以后10秒钟结果就出来了,速度非常快。第一线服务工作人员可以及时得到客户一些信息,和客户进行沟通。
第二个是库内分析,这个应该说很多数据库公司比较清楚的,这个其实是一种架构上的变化,原来的时候我们是把分析和数据库是处在一种分离状况下,这样每次分析时候要去数据库里抓数据,有一个传输过程,这个过程花时间非常大。
另外一点很多银行或者重要机构不希望数据从数据库里取出来拿多外面去,这样带来一个问题,后来我考虑我们可以把分析的这些过程放在数据库内,这样无需把数据提出来有一个传输的过程。这样计算起来速度可以非常明显加快,这就是这个架构的主要的方面。
过去所写的SAS程序完全可以在这种模型下运行,不需要做任何更改。这是库内分析案例,是美国的一家市场分析公司,主要分析客户的消费的行为,通过分析了解大家在使用的时候思考的东西。通过用SAS技术分析以后,由过去4.5小时现在只要60秒可以得到,这样会极大加快运行速度得到分析结果。使用户的使用率方面由过去10%提高到25%,原来发100张证券10个人用,现在25个人用。
另外内存分析,上次会议不少人讲到这个问题,还有数据库谈到内存方面计算,内存分析主要是把数据和分析方法放到这里,通过这种方法极大的提高处理的速度,SAS有很多解决方案在不同行业上,我们在右边可以看到比如银行、零售业、通讯,我们现在有相当数量解决基于这种计算提供的结果。
大家可以看到这是我们一些刀片机,右边显示的在不同刀片机里运行状况,其实每个道歉机可以含多核,现在有十几个核。
这个案例是美国一家银行在分析人们做房屋贷款时候做了一个模型,这个模型主要防止坏帐,防止一些经济上的损失。过去花很长时间对一个复杂模型进行运算了解客户行为,现在的话只要80几秒可以得到同样的结果。
我们可以看到通过SAS所采用的这三项主要的技术,我们就可以达到高性能分析,其实对每项比如说网格计算,内存分析还有库内分析都是在不同过程中使用到,有时候可能在做库内分析也使用,比如把数据从数据库里提取出来放到内存里。
我们刚才谈到高性能分析,还应该和我们一些可视化工具配合,这样能够达到比较完美的结果。另外现在移动器件非常流行,我们想到把分析结果放到移动器件上,我们无论在任何地点可以察看分析结果。SAS可视化分析工具可以达到这点。
这个可视化工具包括几方面,第一是数据准备,数据准备其实是一个过程,把数据取出来放在内存里面,所以我们这个可视化工具在这点看和内存分析这个关系非常紧密。第二功能是探索,可以得到报告,对数据可以有不同的视角看数据,通过这个工具察看这个数据。另外有一个设计工具,可以帮助你设计报告。最后一个功能把数据可以放到移动器件上,可以使用移动器件阅读你的分析报告。
这是一个样品,现在大数据报告或者图形支持这个,只要一拉,马上右边可以把分析结果显示出来。这是SAS高性能分析整个架构,这个架构我们可以看到在行业里已经证实是非常有效分析方法,是目前在市场上真正形成的产品的,真正能够做到高性能分析的唯一产品。应该说这方面SAS应该领先市场有两年左右时间。
我刚才讲的竞争力的问题,也讲了一下SAS高性能分析整体架构。我们来看一个演示,能够帮助大家加深这方面的印象。大家可以看到如果仅仅使用网格计算方式的话,分析速度不是特别快,当我们不断的加入其它的模块的时候,我们可以看到这个速度开始加快。所以这四个方面应该说是缺一不可。SAS高性能分析最关键的部分。
现在来看一个例子,这个图不一定百分百正确,只是大概给大家一个示意,下面是一个传统的分析方法,传统分析方法我们通过这个去从数据库里读数据,运行在这个SAS服务器里面做运行。这个时候对SAS服务器硬件要求会高一些。高性能分析这种模式下,分析数据基本上都不是在SAS服务器里,应该是在一系列的服务器上,或者说刀片机各个方面。
我们可以看到服务器包括了很多节点,里面有多核的,而且内存量非常大。这里面我们可以做库内分析,网格计算的话可能还会分布到不同机器上,还有就是内存分析。
我们这个演示就是关于住房抵押贷款数据,这个表格是数据表格。这是运算时候在各个节点运行的一些演示。
最后得到一个结果,我们看到高性能模式下我们对10亿数据进行运算,在传统模式下,数据量达到10亿没办法运行,我们详细看一下,对比一下1000万条和1亿条情况,高性能分析速度明显很高,而且随着数据量增加,性能应该说表现的更好。
数据分析其实并不仅仅是一个工具的问题,还是一个企业的问题。企业对它的重视程度,企业整个架构问题,企业的分析战略问题,所以我们在考虑大数据分析的时候要从公司的整体层面,从战略角度去考虑。
这是采用分析的手段,采用分析手段面临一些挑战,最主要挑战在数据方面,数据的质量,集成,一致性,同时我们可以看到还有一个大家比较关注的问题,目前缺少相应的技术人员。所以这是结论和最后的思考。大数据为大家其实提供了市场领导力的机会,那就是说看你能不能抓住这个机会,你是不是知道竞争对手如何决策的,而且现在分析的生命周期加快,原来做分析模型计算几十小时,现在几分钟出来,周期已经在加快,你们企业是不是赶上了。这个答案要使用高性能分析这个技术是你需要的。
最后大家有什么问题在下午时候我们有一些技术人员有更详细的讲解。谢谢大家。
主持人:
接下来分享嘉宾是凌琦先生。
凌琦:
非常感谢各位,这么热的天在北京大家聚集一堂研讨大数据这么一个非常有意义的行业趋势性的话题。
我给大家带来谈英特尔公司对大数据的认识。我们作看到的大数据今天这样一个大数据时代,我们所面临的挑战,这个挑战不仅对于英特尔,同时对整个业界。在座各位,作为解决方案提供商,或者作为大数据应用的用户来说这样的挑战是真实而迫切的。
当然作为英特尔公司,和前几位演讲嘉宾非常不一样我们更多工作在硬件层面上,刚才几家公司做数据处理,工具分析软件,也有微软做全系统的软件公司,所有这些软件分析工具,存储分析的流程最终来说都必须要架构在某些硬件平台上,只有硬件平台发展到一定程度才能够提供今天对于大数据进行存储进行分析进行价值挖掘的可能性。
大家都会认同这一点,所以从英特尔公司角度来说,我们也看到大数据实际是一个机会,这个机会不仅仅是因为今天的市场变化所造成更多的数据,数据形式的变化,数据量的变化和移动数字变化造成的,同时我们也看到这也是技术带来,今天的技术,包括硬件软件技术带来的可能性。
刚才几位嘉宾谈到大数据到底多大,2001年根据统计全世界流动数据1.8个ZETBYT(音),一个1后面加21个零,这样大约给一个概念,这个数字多大。这个概念可能还不是很深,到底多大?2011年整个全球流动数据量,1.8个VB需要4500亿张DVD才能把这些数据存储起来。这些数据哪里来的?谈大数据免不了谈数据来源。
首先看到现在移动网络,通讯走向移动规模10倍增长,社交网络大幅度兴起,在中国包括腾讯、新浪,微博以及互联网的社交网络大量产生数据,另外传统的商业领域数据也非常巨大,今天的金融交易比实一交易大的多。而这些数量实际代表金钱,需要大量的加密的安全的可靠的方式运行。这也产生了巨大的商业数据。
这里有个例子讲15个行业里在美国,每一家公司所产生的当年的数据大过美国国会图书馆所有的存有的数据。这是非常大的数量,这只是15个行业里的一个公司,一个典型的公司所产生的数据量。
刚才谈的所有东西是人和人交易,人和人沟通的这些数据沉重。另外还有一类是机器和机器和现有的智能网络中,智能设备网络产生的,这个数量将会更大。而互联网走向物联网这条路将来是必经趋势,随着今后时间增长,大家会看到物联网中产生的数据会更多。
这里有几个数据,在2011年1200万射频条码在市场上,是产生数据收集数据最主要的一个手段。在2021年这个数据是209个Billion,大家看到有很多和物联网相关的比如智能电网,各种各样的智能测量手段产生的数量巨大。这些当中主要谈到这些大量的大数据从哪里来的?明白这些大数据从哪里来的,大家可以相信这个挑战不可避免。而且在今后几年越来越大。
英特尔对大数据时代的认识我们相信今天是一个开始的时候,而且这个趋势在今后几年会不断发展。
这个图右边是讲数据哪里来的,这个数据今天之所以成为大数据因为和过去数据不同,谈到大数据所有行业同仁基本认同几个V的讲法,这三个数字基本定义大数据和已有的传统的这些规模的数据的不同点,以它的特征划分的。
这里大家可以看到有一个2乘2的矩阵,从上到下以数据规模分的,规模的数据,大规模和小规模的数据。从左到右以数据性质分的,是关系性数据或者非关系性数据。把大数据从整个性质上非常定位出来,我们所针对的大数据是大规模的非关系性数据。
当然世界除了大规模非关系性数据,现在关系性数据仍然存在,仍然有不可或缺的作用,支撑现在主要商业机构运行。
我们今天注重大数据原因因为增添在传统关系性数据库中处理的东西,从关系性数据中看不到东西挖掘趋势和方向,这是今天挖掘大数据研究大数据所要做的工作。
IDC的预测,全球数据使用量2020年增长44倍,我们相信44倍增长其中主要增长来源将是大数据形式。传统的关系性数据仍然会成长,但是成长在今天传统数据库运作和数用方面达到相对比较成熟的阶段,今天我们相信如果有致于在这当中贡献,在这中创造新商业模式和机会,我们希望在大数据中能够进行更多投入。
讲了很多大数据的规模速度以及多样性,我想下面谈一下例子,给大家看一下在中国在全球范围内什么样的东西在实际应用中叫大数据。
IT行业里很多年中很多人讲概念,但是只有到概念联系多行业联系到应用时候才能够真正发挥价值。我们行业中的人,我们行业中的从业人员才知道怎么利用它有他些关键工作需要做。
这里是一个电信行业大数据例子,大家可以看到电信行业所面临挑战今天数据来源多样化,包括语音、短信,3G,有多少现在主要的电信公司都开始大规模的布置,电信自己运行中有大量日志数据,客户数据产生,这些数据很大程度以大数据形式存在。以一个某省公司数据量,6个月360个TB数据,巨大的不光规模,同时成长量,每天两个TB数据。
这些大数据为什么需要,对于电信公司面临如何从大数据挖掘价值,对流量分析,对热点应用分析,对访问趋势分析,这些东西对于整个的电信公司来说可以对它的长期基础设施的投资,对它的应用开发起到整个方向性的指导作用。另外对用户行为分析,用户终端类型分析,这些分析能够做什么?这些分析能够做很多市场工作,针对各种不同客户行为有不同的很多新型的客户,针对客户同这类客户的市场,这种包可以满足用户需求情况下,使电信公司服务获得更好的投入回报。
另外有一些新型应用,和地域相关的服务,到某一个商店中能够推送给你针对这家商店和当时时间场景需要的服务。比如中午走过一家麦当劳,推给你一个证券,这些是典型的电信应用,依赖于大数据分析和灵活运用,这只是一个例子。
刚才谈到银行金融行业使用的大数据的应用,金融领域实际是对一个数据应用的安全性要求非常高的一个领域,大多数情况下金融领域里面对于关键性的数据实际从来不走出银行,走出银行的数据在金融交换中数据是聚合性数据,如何使聚合性数据得到分析,获得趋势,能够使金融工具走在市场前面,这也是大数据中要研究的非常重要的方向。
第三个讲智慧城市,我不知道国内有多少城市谈智慧城市,我算的不下20个或许更多,我们看到的只是有限的,省级城市,谈到智慧城市。
智慧城市只是一个概念,智慧城市之下所涵盖的包括智能楼宇,包括智能的移动监控,包括气象的监控,今天非常热的还有一点污染的监控。智能测量,对于工业自动化方面,包括电力系统等等节能减排有赖于智能城市和物联网应用。城市中数据特点24小时7天不停产生新数据,巨大数据。同时这些数据的使用必须是流行式的,换句话说随着数据产生同时要进行分析,不是把所有产生的数据集中起来放在里面分析。
这些分析和模式挖掘在智慧城市中是对大数据非常大的挑战。当然也有很大机会。
今天我们谈到大数据,在大数据来说,我非常同意谈到的概念,所谓数据用来存储用来管理之后,它的价值能够得到挖掘是推动大数据应用的最主要方向,非常同意三个V这些东西之后最后还需要推动挖掘价值。
所有这些大数据对于大数据在现在的环境中社交网络,视频网络实际没有办法用传统的进行分析,没有办法存储,对今天的大数据来说实际上是对已有的关系型的数据库,关系型数据类型的补充。
大家看到这张图中我们谈两部分,上面是关系型的,下面是非关系型的。所有这些东西都会送到分析引擎中,分析引擎必须有能力分析从关系型和非关系型的数据。
在关系型数据分析中,在过去几年实际上有了长足进步,比如说对于整个的数据库内部进行分析,非常高速进行处理实时给出结果,这些是关系型数据库中目前得到关键结果和进展。
在硬件方面实际是提供了大量的支撑,比如说最新的英特尔基于高性能的服务器能支撑大容量的内存,进行内存内的数据库分析。
对于英特尔来说,我们任务无论针对哪类数据类型支撑基本应用。对于什么样的硬件数据平台需要在平台上进行实现?需要比较传统数据分析和所谓大数据分析不同点。
刚才谈到传统数据分析更多结构化,数据量有限,集中批量处理,对于非结构化数据来源将非常多。所以需要对于整个数据进行分析,能够进行聚合分析。
其次数据量规模巨大,对于存储架构必须能够可扩展,传统的这类的存储结构已经不适应现有大数据存储。更多的需要以服务器为架构的扩展性的存储架构,对于分布式的文件存储非常关键。
其次对于分布式的文件系统支撑之后需要进行实时流处理,在电信,在政府,在智能城市,比如在财务公司方面有非常大的应用环境。对于实时流处理需要高性能。
这里给出一个基本的深入数据挖掘基本方向,大家看到在任何企业当中,对所有这些数据我们会看到大数据和传统解决方案的一个并存结构,对于丰富的最后的分析结构,分析的结果我们需要丰富的可视化的展示方案,这些展示方案对于硬件结构来说,在整个的台式和笔记本这类终端业务当中需要高性能的数据图形以及可视化的支撑。
对于分析来说,分析和综合来说需要大规模的数据中心的支撑。这些数据中心我刚才谈到需要可扩展性的数据存储结构,第二需要高性能数据分析的处理器,这些将会在对英特尔体系架构中计算能力提出重大挑战。
大家可以看到从数据收集到数据分析到数据展示整个体系架构英特尔在目前进行大量工作,希望能够做到我们提供我们所能提供最佳解决方案,提供硬件支持。英特尔优势这几层面可以得到认可。
大家看到英特尔在整个计算存储方面,今天整个的架构希望在性能和容量中提高得到最好平衡。其次在整个存储架构方面,英特尔有专门的工作组,专门的一个部门在对于这些软件进行大量支撑,比如说对于HADOOP,针对它的很多优化给予很多方便。
刚才谈到很多HADOOP实施不这么容易,这当中需要很多支撑以及优化工作,希望通过英特尔在HADOOP对结构的支撑支持做到实时实施。
对于分析层和界面以及工具方面,英特尔架构上客户端和服务器提供非常高性能。在服务器架构中大家看到今年已经发布了E5和E7下一代服务器,新一代服务器对于大的数据量处理提供高速即使反馈。
应用层方面,应用软件开发,分析工具开发很多是在座各位开发商和解决方案提供商做的工作,英特尔更多提供我们自己在工具方面的支撑。英特尔的软件工具,包括英特尔的数学物理库,包括并行化工具,包括集成工具,所有这些工具对今天在大数据分析中所需要的高性能计算架构进行最好的优化。大家可以上英特尔网站下载相关工具。
今天大量在过去很多年中被大量高性能计算中使用,今天大数据分析某种程度是高性能计算应用,这些工具将给大家带来很多优势。
对企业用户来说提供一个基本框架,哪些英特尔技术可以在企业大数据分析,大数据存储管理和分析应用中能够起到根本性的改变性作用。
首先提到分析需要高性能平台,英特尔在平台中智能加速技术将会使我们的平台尤其在服务器平台上和我们竞争对手有不同表现性能非常高。
其次大家看到超现层指令在服务器中被广泛应用。这是在分析层面上做的硬件的更多的支撑。
在数据分发和存储方面,高可靠性,高可用性,高服务性是主要的诉求,这方面英特尔的最新存储架构也是对今后可扩展存储架构提供支撑。数据库管理方面有一些相关的数据中心的技术将会对今天的数据中心有很多支撑。对大规模的数据中心能耗管理,对于整个的数据运营在内存中提供可靠安全环境。
最后在数据应用,在运策方面,在数据展示方面,英特尔提供了一些技术,能够使最后应用者和整个系统知道是谁,谁在应用这个系统,对于系统保护提供了完美的覆盖。对于企业应用当中从数据分发到数据库管理到数据应用方面英特尔有相应的技术,在硬件平台上给予软件的开发提供了足够的支撑。我们希望在这里能够使大家对这些硬件所提供的能力有更多的了解,充分利用这些能力使大数据应用开发得到便利。
最后总结一下英特尔在大数据时代的角色,所有和计算和通信相关的东西会涉及到计算能力的需求,所以在这样一个大数据时代中,可视化应用过程中,挖掘价值,提高决策反应,随着摩尔定律发展,整个硬件平台加速应用将会提供整个硬件平台关键性支撑。
其次英特尔做了很多推动创新的投入,希望能够通过这些创新,使更多数据来源加入到大数据中,获得充分的利用。这些数据来源包括切入式的系统,尤其是物联网系统,包括公有云,私有云系统,以及科学计算,比如气象等等。除了英特尔自己做的工作之外,自己的平台之外,推动创新之外,英特尔也有英特尔的风险投资部门,今天英特尔的风险投资部门对大数据中涉及到的关键性平台,关键性的应用,分析工具和提供商有非常重的关注,希望投资这些大数据,助力于大数据领域中的主要的创新者。充分利用英特尔的平台,能够使大数据应用今后几年中获得长足发展。
最后感谢大家的时间来听我的演讲,希望大家对英特尔的硬件平台提供的支撑,以及英特尔投资部对于整个业界创新领域当中所进行的关注以及合作的愿望能够有更多的响应。
非常感谢大家。谢谢。
主持人:
上午嘉宾提到几个词,一个决策,一个来源,提到研究和服务,这是很重要的。下面休息。
(茶歇)
主持人:
如何将数据加以处理和分析至关重要,通过大数据转化为竞争优势,下面有请Splunk亚太区产品市场负责人。
Andy Ho:
大家好,这里许多人听过Splunk这家公司。
这些是所有你们企业需要的基础设施,他们是产生大数据来源,有一些数据传统方式很难处理和分析的,这是大数据的作用,为什么机器数据有意义的?今天上午也听到过刘总说过为什么这些数据非常重要?因为它们能够帮助你们分析用户行为和网络上行为,服务质量以及消费者行为。所有的都是有意义的数据,对于一个企业成功非常重要。
传统的多维度的数据还有这些传统的数据型的关系型的数据都没有标准,他们是非常分布型的,并且量非常大,大家看到机器数据也都是非常重要的数据。比如说要买一个产品,要在IPHONE在电脑上,在安卓上买一个产品,如果不能在网上操作,需要打电话购买这样的产品。因此所有的这些数据都是能够通过大数据来捕捉和获及的,而且是能够非常具有交互型的数据。
每天会产生很多这样的机器数据,看一看这个。这就是机器数据的外形,我们看到有很多关键性信息,比如说消费者的ID还有产品的地址,消费者地址,定单地址,可以看到等待的时间等等。如果你是用户的话,并不是购买想要的,因此可以有时候可以投诉,可以在网上写这样的经验,这样我们就可以通过不同的源把信息链接起来。因此联系非常重要。
如果有这样的源就能够很好了解客户经验和客户需求,如果实时的进行的话,如果老板让你做报告并且非常实时,会给老板留下深刻的印象。我现在还没有看到过去有什么样技术能够实时方式来进行。因此你可以看到各种各样的安全还有这种欺诈的事件发生,而这些都是能够通过机器数据避免的。
现在我们的机遇在哪,我非常喜欢这个幻灯片,可以看到我们传统这些工具是失败的,在左边大家看到数据量增长特别大,传统管理工具在失效并且非常昂贵,因此我们现在需要创造出更高的更有效的工具。
我们有很多的支出但是不能够帮助我们更好减少成本,我们必须要很好的设计,当然还可以列举很多这样的事件。如果一个公司不能够很好利用这些数据不能很好管理信息,这是我们能够很好收集大数据会对商业产生价值。
到底有多重要,我们有高容量非常复杂的非常动态的数据,我们要利用好。工具变得非常昂贵的时候我们必须要看到我们有各种各样的数据,当然还有我们公司生产的产品,而且可以通过不同环境来实现。
我们的宗旨就是在Splunk,我们在大数据方面是市场领先者,我们有很多机器数据,我们要让机器数据让更多人使用,让每个人可以接触到。我们是一个软件生产商,我们提供一个平台,像IPHONE,IPAD,可能是提款机,可能是路游器任何机器中的数据,我们提供这样的平台,这样能够分析和收集数据。
在Splunk可以进行很多这样的调试工作,包括我们可以帮助客户分析未来发展趋势,同时可以分析消费者的行为,还有这种安全的形式,如果有黑客想侵入可以通过我们的产品避免。这是我们公司的产品特点。
我们通过这样的技术收集大数据,同时为客户解决问题,用更快速方式实现。在过去要好几天时间来分析我们的基础设施的问题在哪,但是当我们发现数据之后,我们就能够很好的通过这样的工具来解决问题,现在我们解决问题时间大大缩小,这是端到端的能力,是ITKPI帮助我们做IT决策,可以利用我们的产品来分析运营的数据,来提高商业运营。
因此运营智能包括在IT和商业人士都能够实时的来分析数据,并且提高运营效率,通过我们的客户,不管是个人还是组织都能够在各个方面提高他们的运营效率。比如他们可以减少成本,提高服务质量,减少风险,同时获得洞察力。
我们的服务不止于此,我们的消费者都是会每天产生很多数据,不管网络游戏还是其他的一些软件都会产生这样的数据流。我相信今年美国银行还有美国网络公司,与其他数据库公司进行竞争。
还有超过4千的企业的用户在在使用我们的产品,我们第一款产品在2006年,每年有超过4千企业用我们产品,来自各行各业,不是只有某一个行业使用我们产品,我们可以帮助各个企业实现他们的目标。比如说第一个就是通过洞察力从利用这些数据来支持公司的运营和商业决策。
Centurylink在美国是第三大电信公司,提供宽带,无线以及管理服务,他们的业务便及全美,包括宽带,语音和无服务,同时有电视和娱乐业务,这是非常大的一个板块。
他们宽带的管理者都是需要制订一系列的商业决策,并且列出决策清单。每天他们都有新的使用者,他们也非常致力于改善用户的使用体验,同时提高他们的效率和性能,改善基础设施。作为一个广播电视商,你的收视用户肯定不能够忍受你的电视质量经常出问题,如果无线网出现问题时候,他们可能会转到其他电信运营商,这就是为什么我们的产品能够帮助他们做大更好。只要有这样的网络基础设施,当然是非常复杂的,每天我们机器产生很多这样的机器数据,包括这些电视的用户,只要他们在摇控器按一下可以转换到另外频道,这些会产生很多机器数据,他们会帮助客户改善质量。这也能够帮助客户,他们能够把用户行为转换为商业智能,帮助客户更好的来分析最终用户的行为。
还有网络上的调试也非常重要,这就是他们使用这个产品的重要原因之一,因为我们传统的调试方式你可能使用监管机器或者是红灯绿灯进行调试,不管红灯还是黄灯,只有在红灯亮的时候才表示调试完成。而这些是从一系列的数据流中获得的,这些也是非常高性能的。当然这也需要时间。
在夜晚的时候,在看电视的时候,在玩手机的时候,在这个时候可能在网上流量减少,这样我们的产品可以帮助你很好分析流量变化,以及用户每个时段他们使用的习惯。当然这对我们的公司是非常重要的,因为数据的质量和价值是在随着时间改变的。
现在我们也可以看到各个不同的数据流,他们可能从声音到数据再到流程,这些应用都是非常重要的,他们都会产生数据流,还包括CDR,呼叫中心等等,所有的这些都会产生数据流,使用我们的产品可以帮助你保证数据稳定性,同时来发现当事件发生时候的原因是什么,这些都可以通过我们产品找到。
刚才我讲到一些基础性应用,现在看如何战略性应用,我们Splunk有一个特殊的架构,不需要预先知道数据结构,我们可以很容易引入新数据源,加入我们数据库中,这样对于IT以及商业运用提供了可行性,可以贯穿所有的商业过程,所有的数据流。我们需要不同新增数据源,帮助我们得到商业洞察力,很多公司这方面伤脑筋,人们需要知道这些数据流在哪些定单带来利润,要知道在什么地方得到收入,也要知道在什么地方应用这些收入。要包括不同使用者不同决策整合。
我们看历史记录,某段时间可以看到,通过几次点击可以看到,每次消费者呼叫用多长时间,他们满意,他们不满意有投诉。
现在我们看来自机器的数据,也有许多不同使用情景,不仅是通过监控或者测试,监控以及其他的一些处理可以帮助我们知道定单的来源,还有其他的应用场景。
现在看另外一个例子,关于分析,这个分析从数据的起点开始,这是一个公司,很大的公司,是一个税务咨询公司,美国30%纳税人用这个服务,做网上报税,美国有30%的纳税人用这种网上报税,我们可以想象每天处理多少数据,数据本身需要非常精确,我们不可能说这个月赚50美金,但是不能和政府撒谎只挣25美元,因此里面数据要非常高精度和可靠度,是一家领先的公司。作为金融机构包括银行信用联盟,以及消费者联盟,会计师事务所,每一个人从个人到公司都可以应用,都可以成为消费者,这个例子来自我们的财务服务,金融服务并不来自财务。
开始他们不是从财务开始用,而是服务开始用Splunk,在这里我们有400万以上用户在美国,应用包括网上银行,电子支付系统,个人网上理财以及网站,手机,因此我们需要看是否有黑客侵入系统得到信息,我们需要进行一个整体的诈骗分析,因为我们不可能允许不正常事件这个系统中发生,我们不是事后补救方式,关键在于我们的团队意识到所有来自机器的数据都与安全相关,这样可以帮助我们发现一些诈骗案例。
我们希望几分钟时间内为每一个做处理,这样进行30天或者90天或者全程历史分析,发现新诈骗类型,我们需要关注这个类型,看诈骗案件在什么地方发生。比如一个诈骗者有人希望侵入系统非法获取钱财,Splunk可以嗅探到系统中发生的事件。
这是另外例子关于我们的所有数据,在15家银行内实施通过地理系统的联系嗅探大可能的诈骗。通过一个数据处理供应商,我们在这里看到一些不正常现象发生,下一步他们给警察打电话,抓住了诈骗犯。
传统上没有其他的工具或者应用能够帮助我们取得洞察,发现系统中不正常事件。
在这个例子中,这个是应用的范例,帮助我们认识大数据的价值,只是在一张纸上可以看到,可以对数据进行分析,并且对于数据分析诈骗类型以此作为行动的依据防止诈骗案发生。
最后例子是在线服务,大家知道团购,叫GROUPON的公司,08年11月创立的,公司成立不到4年,但是扩张非常快,2008年11月在芝加哥创立的,每天有很多不同类型,比如美食娱乐等等,业务分布世界55个国家,这样可以通过很优惠的折扣给商家和客户创造双赢结局,每天做1千多交易,Splunk对他们是非常重要的工具来帮助他们建立数据,无论在安全绩效效率,数据流分析,数据挖掘,数据获取,商业智能等方面都起到非常重要。他们通过API应用获得市场上更多消费者青睐使用他们的团购平台。
我们用API鼓励新的客户注册,并且向他们推荐信息,这样Splunk可以成为一个动词,不仅仅是一个名词。API表现可以提供非常棒的消费者体验,并且为商家提供消费者洞察,通过分析数据,这样他们可以优化广告投放,当人们点击之后数据流流向哪里,能够帮助商家分析消费者行为,这里我们知道商业智能分析非常重要。我这样的消费者,如果我上网的话可能和你的上网习惯不一样。
这就是网上的智能就是点击流,这种数据可以被收集起来。所有来自机器的数据就储存一个地方,几乎是实时提供,不是完全实时也是接近于实时,同时可以以任何方式进行应用获得新的广告投放的依据,比如经常用GROUPON这个团购美食,这样他已经知道你的一些基本信息,这个用户ABC或者是我,每次上GROUPON都只点击美食或者餐厅,做广告的话只会把电子广告发给我,这是界面样子,照片在GROUPON办公室。追踪销售额有多少用户,每天多少新增用户,响应时间,如果有一个消费者提出问题或者做出反应,需要反应的时间是多少,每天所有的数据在GROUPON办公室受到严格监控。这只是我们的一个例子。
这是一个经典风格,是用于IT架构,第一平衡点是什么,现在有多少内存,已用多少内存,以及网络的数据流是否健康。所有这种可以在几分钟内建立完毕,不是几周或者几个月。我们可以用一个人可以做,只要这个人能够做日志或者是机器数据,有充分的技能,可以通过点击创建,或者为老板为一个公司CEO做。还有一种,我们看到API应用,这是它的样子风格,Splunk指数,API响应时间,需要响应的用户分布等等。
Splunk可以用于核心IT应用,用于研发处理,应用管理,流程管理以及IT架构,这是非常重要的。因为可以辨别一个趋势,知道环境的一个趋势。
最后Splunk也可以和其他的一些技术结合起来应用,也许你们已经听说过HADOOP,因为Splunk是实时的反应,我们有最佳实践,在不同的机器数据搜索整合方面,因此来自Splunk的数据是足够可靠的,可以传到HADOOP上,同时可以进行特定批处理。
下面举个例子强调一点,就是我们的Splunk大数据解决方案,我们是具有独特性的独特的长处,我不是一个技术人员,但是我可以从Splunk网站下载,几分钟可以装好,非常简便。
我们可以进行端到端的功能,可以通过很多数据源中取得我们需要的数据,每一个可以生成机器数据的数据源可以被整合到Splunk上,我们从中得到所需数据。
这样我们可以得到可视化结果,可视化非常重要,当我们把这些数据编组之后我们需要知道我们如何进行数据可视化进行表现,使这些数据理解起来更简便。我们在全球4千多家用户,每天我们处理数据很大。
再次强调作为Splunk的使命,是使机器数据可及可用,并且为所有人创造价值。如果你们希望了解更多Splunk的信息,欢迎访问我们的网站,可以在网站得到更多信息,感兴趣可以下载Splunk的两个月试用版,可以自己来试一下,非常简单,谢谢大家。
主持人:
刚才演示过程中需要用Splunk检查他的机器是不是有问题,他讲两个一个报税问题,一个网络诈骗问题,在中国有很大市场,能不能解决是很大问号,需要根据中国市场定制策略。
接下来演讲嘉宾是喻思成。他演讲前我们有沟通,零售业案例是不是正面案例,我觉得或许喻总可以给我们解答,让他权势消费大数据给我们带来智慧之路。有请喻总。
喻思成:
在讲大数据话题,我们实际在数据前面加了一个大字,用一个更广泛的议题看大数据本身在整个数据策略里面实际上是一个更小的话题,我们公司是数据库公司,我们公司是平台性公司,在数据这样的概念下讲一讲整体甲骨文对数据策略,对大数据只是其中一部分我们提供这样的平台。
今天所有人大数据今天非常热门,非常困扰。大数据怎么样帮助我的血污,如何利用大数据,大数据成本是多少,用大数据风险在哪里,如何衡量回报。我们公司数据库很多友商数据处理平台等等,在过去很多年建立起来很多关于数据应用和技术和数据产品,今天是我们在这个平台技术上进一步谈论今天所有的大数据,我们谈论大数据基于以前有的东西。所有大数据产生结果和我们今天所有的数据库平台,所有的技术和平台整个连接成一个大平台。
我们今天所熟悉的在过去很多年里建立的数据和系统在这个图里做了诠释,我们有的一些平台大家熟悉的,有很多数据源,可以抽取出来,放到数据仓库,前面一个数据分析平台,有很多公司部门应用,公司应用或者外部应用对数据进行消费进行使用,这过去20、30年里已经建立起来,大家熟悉的。
我们谈论如果用大数据的时候,更多谈如何使用现有大数据把有价值东西抽出来,融合到已经有的成熟的管理和数据处理体系里,把这样的成熟数据管理体系把它解开的话我们需要数据源层,由以前比较熟悉的比较关系型数据库,但是也有可能是一些我们今天谈论的其他的数据源,我们有一个数据收集层次,我们把数据通过工具,通过一个数据采集交换平台,把它存储下来。
这是我们第一步最基本要做的事情,存储可能结构化,可能半结构化,可能非结构化存储方式,我们有数据计算层,在这里对数据进行处理和计算,无论是哪种数据源过来,无论是哪种数据处理方式,数据存储方式,最后把数据整合起来。
我们在以前看有很多数据整合工具,这些工具可以在某一个时间切面,或者一段时间长度或者整体数据进行一个切片进行展示,所以更多是数据整合和展示方式。我们真正递交给数据消费层,上面有数据应用平台,有数据共享,有数据服务,我们讨论怎么样最漂亮方式最可见最快速方面,最可调整方式把数据洞察出来,把数据通过BI方式展现出来,我们有报表系统,有交互分析。
在过去很多年里,我们大部分建立起来这样的系统平台,只不过大数据时代我们发现,我们的数据源不仅仅有传统的结构化数据,还有非结构化数据。有机器产生的数据,有很多非结构化数据,这张图里传统数据存储方式已经不能再符合原来要求,而且本身要求有变化,对于结构化数据,我们对数据处理方式要求和现在大数据处理要求不完全一样,所以处理方面不完全一样。今天不是完全颠覆这张图,而是在里面加进很多新的处理方式。形成一个更完善,更完整的一个数据管理和处理体系。
ORACLE公司是一个数据库公司起家,后来成为中间件公司,成为ERP公司,成为完整的软硬件一体化IT处理厂商,IT工具厂商,我们提供这样的平台,我们和很多厂商一起合作,尤其做工具厂商,做每个行业深度挖掘,提供服务的厂商进行合作,为我们所有的每一个客户提供更全面解决方案。
ORACLE公司更专注结构化工具,在过去一两年里ORACLE公司走入了大数据时代,提供处理大数据技术和平台,大数据一体机平台我们前不久发布的。ORACLE公司推出自己新的一体化机器,我们一体化机里在分析方面的一体化产品,提供了我们所谓的BI一体化产品,和我们提供数据库一体机一样,把软件把硬件把存储把网络全部集合在一台机器里。
我们想做的加上已经有的关系型的结构化存储的所有平台,我们把大数据处理的非关系型,非结构化数据融入大平台里。
整个大平台怎么样统一处理结构化和非结构化数据融合一个大平台。
我们首先看,现在我们看到大数据来自于多少数据源,应该说除了传统数据源,现在我们基本上可以说要不来自泛互联网,要不来自机器产生数据以及行业内容数据。这些数据刚才很多谈到4个V,数据量非常大。结构本身来说有很多不同结构,爆发量非常大,增长速度很大。我们把这个V是价值,真正的价值需要挖掘。本身价值,真正有价值的部分不特别大,但是从庞大数据挖掘有价值的东西是大数据处理方式要面对的问题。
面对4个V有很多处理大数据方式,里面最核心技术。他们不是ORACLE数据库的对立和竞争,是ORACLE技术补充。今天ORACLE公司拥抱技术,使我们补充出来泛数据处理平台。
我们不仅有HADOOP和NOSQL技术,我们还有更多对流术语处理,我们提出ORACLE CEP,我们提出新的概念,怎么样快速处理一个数据流。ORACLE公司有内存数据库产品将融入更大数据库处理平台。
无论传统数据还是非结构化数据,大数据时代所有数据出来必须在BI平台表达,ORACLE公司提供这样的平台。
大数据所有的数据出来以后,最后非结构化数据要搞高结构化数据仓库平台数据库里,如何提供连接,把非结构化数据导入结构化数据,ORACLE公司根据以前做结构化数据库优势提供方式。
ORACLE公司提供整套一揽子解决方案,包括云存储。我们作希望做到的是我们处理大批量数据,结构化处理数据基础上,我们今天扩展视野,不仅提供大批量数据结构化数据处理方式,今天我们能够做更多的持续信息流量计算,比如说我们有一个电表,在这个电表里面,大家不停的时时刻刻产生电表的数据,有一个特征持续产生流量数据,我们要把这些数据截下来进行分析,这种分析方式和以前查询方式不一样,要不停的消化产生的数据,不是等数据全部产生再一揽子分析,是流量处理过程,这样才能产生实时半实时流量分析结果。
第二种处理方式我们以前熟悉的海量计算,以前有数据仓库,进行大规模的数据计算,现在有新的计算方式,比如进行实时计算,一个车开过一个收费站,看车牌在全国数据照片里分析出来,他是不是有犯罪记录,本身并不涉及复杂计算,但是要求时间准度非常高,是大海捞针计算,都属于计算范畴,很多时候处理要求和方式不一样。
今天要做的是ORACLE公司希望把所有的技术手段统一起来,因为ORACLE公司原来在数据库方面在这方面有一半以上市场份额,今天希望把大数据计算成为我们计算方式一种,不是一种颠覆。
无论大数据还是以前有的,还是有数据其是流失计算,我们希望在这张图里能够结合起来。
回到前面显示的图的时候,我们希望从技术从产品手段来说,我们希望最下面数据源层,我们希望能够处理文件数据源,能够处理事件数据源,就是我们刚刚说的一个机器产生数据源,其他所有的数据源,比如微博,行业数据源等等。
ORACLE公司希望提供这些数据源方式,我们有采集交换系统,有日志收集系统,在存储时候我们希望能够提供原来的集中式文件系统,结构化存储,同时能够提供灵活存储方式。比如说非结构化存储方式我们都能够提供。在数据计算层我们不仅能处理大量数据批量计算,能够处理刚才说的流失计算和实时计算。数据整合提供一揽子整合方案,我们有自己原来传统数据库,有数据仓库,提供灵活数据存储系统。
在数据消费层我们提供一揽子数据应用消费平台和数据共享数据服务平台,数据洞察层提供交互式分析。
ORACLE公司怎么样做到这一点?首先在数据整合这样的方案里,ORACLE公司原来有自己的工具,业界耳熟能详。在非结构化数据数据整合方案里,ORACLE公司刚刚发布BDA产品,提供最底层的存储,提供上面的硬件,使我们使用HADOOP开发人员可以在这个平台继续使用。我们提供统计方面的R语言的实现,加上ORACLE公司自己的主机,刀片机,再加ORACLE公司提供的网络的主线,使得没有必要去自己传输一套整个HADOOP东西,可以有平台,可以有数据库。在这里ORACLE公司提供全面技术支持,可以在里面节省大量时间,没有必要从存储,到HADOOP平台,到后端产生有价值的数据存储到关系型数据库方面自己去书写,完全ORACLE公司提供,而且价格不非常的昂贵。
之上ORACLE公司可以提供最好的性能保障,因为ORACLE公司不仅仅简单为了把软硬件加一起,我们有加速过程。
我们在存储在网络传输,在软硬件结合方面我们做自己的油画。
这是在数据库整合方案的产品。在流量处理方面ORACLE公司有自己的产品,专门对于事件型流量数据进行非常快处理。
在数据计算层,我们刚才说ORACLE公司有自己传统数据库产品,软件和硬件结合在一起,可以快速完成传统批量处理数据能力。同时如果说我们进行实时计算,ORACLE公司有内存数据库产品,可以把大量数据库弄到内存里进行内存计算,使计算速度非常快。如果我们需要流量计算,我们有自己的CEP技术。
数据整合层,ORACLE公司有BIGDATACONNECTER。传统性数据,非关系型数据可以融合一个平台。最后我们需要把所有数据存储下来,不管大数据还是传统关系数据,最后销毁,数据是拿来用的不是为了存储,需要一个中间件平台,我们有EXALOGIC技术。
最后到前端表达出来,BI产品ORACLE公司有最好EPM产品,有BI原来已经有的产品,ORACLE公司BI产品包括OBIEE等等,现在都整合到一个平台上。
ORACLE公司有完整的,从后端数据源到数据存储到数据仓库处理,到前端BI展现,ORACLE公司可以一起办。我们大数据本身来说实际只是一个数据蓝图补充。使得部分关系型还是非关系大数据产品,真正为企业提供完整解决方案。在这个解决方案ORACLE公司提供管理,ORACLE公司以一个产品号发布。
从内存CPU到带宽数据,IO吞吐量,内存使用率,存储使用率,中间件处理平台,全部在一个大的EM平台里展现。我们有统一的安全方案。
ORACLE公司想表达一个意思,我们提供软硬件一体优化集成ORACLE大数据综合解决方案,不仅仅是全部。提供完整数据综合解决方案,不仅仅是大数据解决方案。ORACLE公司愿意和很多厂商合作,ORACLE提供一个平台,开发针对某行业特有数据解决方案。我们希望友商在我们这样的平台上进行开发,为企业级客户提供完整应用。
谢谢大家。
主持人:
谢谢喻总,我对一个数据非常感兴趣,他说是ORACLE最全面最强的,数据解决方案商,不是大数据,大数据只是一部分。提出来捕获到组织到分析到决策的整个流程。接下来是何英华,题目是大数据智慧之路。
何英华:
大家好,我是来自NetApp公司的,我主要负责两岸三地大中华地区的技术总监,每天花很多时间和大企业的CIO副总见面,去了解他们的一些业务上的需要,怎么转化成IT方案。在最近一两年,有两个很大题目一定是必须要讲的,一个是大数据,今天给大家介绍。另外是云计算,在不同场合我们有这两方面介绍。
今天给大家讲一讲我们在大数据解决方案,很简单,大家看到这个图片ABC,最基本最简单的ABC,我们在大数据ABC是怎么样的一个概念?NetApp大数据的策略很简单的,NetApp大数据方面用ABC来解决。很多友商有很多V,我们也一样。大数据在这三个地方,大量,速度快,比较复杂,还有结构性非结构性等等,一个电邮可能是一个图片,可能是不同的数据影像等等,所以复杂。
我们典型工具可以做采集分析等等的,基于大数据在NetApp一个解决方案。
我刚才说ABC是什么?分析、带宽和内容。围绕大数据,我们公司在这三方面下苦功,发展一些技术,存储技术,带宽网络技术等等。
ABC我们需要达到什么样的目的?这个三角形的大数据我们要分析,分析要对数据有一个洞察力,所以这方面大数据实时分析我们有一个解决方案,数据一来要分析很快得出结果报出报表等等。
内容基本上是不要丢失任何东西,不要有任何的数据丢失,不要忘记每一个数字。所以我们在这三个层面去做。
在这方面我们在分析方面我们要分布式的计算,这样的计算能力可以把数据分在不同的存储,拿出来送到要计算的计算机的时候我们有非常好的渠道,通过很大的带宽,我们在中间不能够丢失任何一个数据,可以允许这个数据无线的发展。
大数据非常简单,我们策略非常简单,就是ABC这样的来做。所以在不同的地方我们用不同的应用,所以在分析方面提到大数据,每个厂家提到HADOOP,我们和HADOOP有一个联盟,去年11月我们公布策略联盟,有实时分析,有数据库。我们提到很多的高性能计算HPC等等,现在很多的高空无人侦察机,拍下来电影,一些气象我们很快处理。在内容方面我们有CDMI,有一些对象存储,我们也在这里开发的一些这样的技术出来。
在这三个范畴里NetApp有专注性开发我们的产品怎么样迎合。
在三个地方分析和带宽和内容方面大家看到大内容,市场机会增长最大最快,NetApp作为传统公司,内容要有数据,数据找一个地方落实下来。这是整个的存储的策略,在这方面NetApp在大容量方面作为一个领先的供应商。
每年增长是35%,在未来一些时间,我们可以看到高速容量增长。
我说的“A”大分析,分析应用里,包括企业级解决方案,我们有一个集群,可以和我们的操作系统有无缝的结合,我刚才提到我们和一个公司有一个联盟,这个公司HADOOP的创始人发明者在这个公司里作为一个CIO。
在带宽方面,我们说现在的高性能计算,石油勘探,医疗行业方面我们需要非常高带宽。
高性能计算方面有很多不同的软件系统,我们有一个无缝结合,不同行业,像国防、能源、石油方面我们有非常好的案例。
我们和很多用户去谈的时候,大家提多要做大数据,我在存储方面采购有什么采购的考虑,有什么标准。在这方面我和大家谈的几个方向,向上扩展与向外扩展,NetApp这方面有向上扩展的能力非常大,加上一个集群应用,我们可以支持横向的扩展。工作负载优化架构,这个也是非常重要,因为大数据要处理这么大数据量,实时非常重要。整合数据保护。还有不中断的运营,一天24小时,在扩展的时间可以不停机的,对用户来说数据一天24小时一个星期7天可以应用,但是对数据中心管理员可以在应用,上线时候进行一些部署,比如增加硬盘,增加节点,做一些整合等等,这是不中断的运营。还有服务自动化。
大家对NetApp比较熟悉,今天20岁生日,我们过去20年一直专注发展,20年后NetApp发展到不是单一产品公司,我们现在两个平台。这两个怎么样分别?和友商不一样,我们是统一家族,是统一存储的一个概念下面的。
NetApp发展到今天不是一个单一产品的公司,我们有两个。ONTAP和E系统的应用领域。从整个企业总部然后在地区的分公司等等,我们可以提供平滑管理,数据在总部去到偏远的地方,我们可以利用ONTAP,我们一般传统数据库。E系列在大数据方面在分析,部门和行业的应用在E系列方面。
不同市场定位,在大数据里面很多应用,我们应该具备。我们在带宽,在分析,在内容方面这两个产品有非常好互补的作用。
在整个大数据平台上,刚才说ABC分析,带宽和内容。在分析方面要采用HADOOP,我们有很好的专业服务,可以帮助客户开发HADOOP工具,来发展应用。在带宽方面有很多高性能计算等等。在内容方面我们有对象存储,有ONTAP方面,我们有不同分布,是非常无缝的连接。
大数据在市场热点背后有很多机会,NetApp如何把握机会,我们有创新的理念,我们是创新的年轻的公司。谢谢各位。
主持人:
今天最后环节。请上几位嘉宾。微软的孙博凯孙总,姚远姚总,孙元浩孙总,喻思成喻总,何英华何总。还有Andy HO。
今天上午讲大数据和产品结合,我是非常关注用户,我也是一直和用户交流比较多,和企业CIO这么多年,希望从这个层面问各位问题,希望通过这个层面和各位交流,希望有不同看法和观点。我和分析师说,今天会议青一字,厂商声音,能不能有一些用户声音百花齐放有一饮冲突或许更好看。
大会给我的主题是数据驱动型企业与大数据商业模式,这个主题有点大。第一个问题,让大家用一个简单例子或者一句话,通俗易懂告诉大家什么是大数据。
Andy HO:
大数据是什么意思?非结构化数据,不仅仅非结构化,传统的关系型数据库无法对此处理,所有数据不仅仅来自服务器,来自不同机器数据源,我们之前提到数据来源,包括网站,文件流等等所有的一切,来自事件,英特网,或者人交易事项,所有这一切就是人与机器的互动,这样产生数据我们称为大数据。
喻思成:
我给大家举例子,比如我们所有人去医院看病,医疗数据是提炼过关系型数据,如果说去看病例上有没有心脏病,是一条记录,如果说在测心脏时候可能有24小时的所有的心脏的仪器测下来的脉搏的所有数据,这些数据为了得一个结论有没有心脏病,如果把24小时所有数据全部存下来没有必要,量非常大。这是最简单大数据。
孙博凯:
是一个很好的问题,最简单化来说,大数据技术能够使你获得洞察,通过不同数据我们围绕身边所有数据,我们的周边数据中得到洞察,我们周围有光有声,这些环境因素可以考虑。通过大数据和大数据技术从周边数据得到价值获得洞察。
孙元浩:
传统技术不能解决的这些数据问题都可以是大数据,为什么以前这个不处理,因为现在软件技术发现潜力可以处理,大家今天这么关心大数据,这里我的定义很简单,我们不能用传统技术处理,但是一些软硬件技术让我们有潜力,有创新方法处理,所以我把这些东西称为大数据。数据到一定程度,比如整个地球地理信息,还有更大数据不能处理,我们有潜力,我们目前不能处理我们称为大数据。
姚远:
整个大数据产生云计算带来机会,利用好数据是关键,使数据变成价值,为企业家带来竞争力,这是对大数据洞察理解和感受,是整个对大数据关键所在。
何英华:
怎么定义大数据?在整个数据里面怎么样淘宝,我们数据有很多保障在里面,我们怎么有系统找出来,分析出来,这里有学问,另外这些数据可能不是以前关系数据库用文字表达,有很多是影像,图片、声音等等,机器产生出来的一些莫名其妙的一些代表等等。所以怎么样从这些方方面面里淘宝,现在我们说地震不能够预测,是不是不能?可能我们在很多数据,刚才说在一些系统里和不相关数据我们有一个系统分析,可能在地球另外一端的异动,可能明天某地方地震,可能还是可以预测的。我们期待开发出来。
主持人:
回到今天讨论主题,数据驱动活动和大数据商业模式,第一个问题大家觉得最终给企业带来价值,大家觉得必须有这一条才称为大数据。你们产品和技术和方案怎么给用户带来价值?从哪个侧面带来价值?
Andy HO:
关于数据的价值我们把这些数据收集起来并且进行分析,我们不知道如何来用,不知道可用性,因此非常重要一点,首先辨认出需要找什么样的数据,在你开始动手寻找之前,这样可以使我们的数据收集更有针对性。比如我之前提到网络智能,网络分析工具,人们上网站点击,用户表现比如你和我不一样,每次我上网一般上谷歌去搜寻一些东西,我有自己的搜索方式,这种用户习惯和用户行为可以产生价值,对于比如说电子商务,电子广告公司产生价值。这样在未来如果他们做电子广告的话,他们知道我需要我大部分时间找什么内容,他们把我可能最感兴趣的广告推送给我,不是广散的广告推送,这样对用户影响力大的多。这是一个例子。
喻思成:
我们都知道淘金,几吨土里淘一克,ORACLE公司不是把山包下来淘金,因为我可能没有了解的更多,我只是说不用买铲子,买处理的药剂,提供一个处理的平台,把土往里面放,淘出想要的金子出来。ORACLE公司可能会和很多淘金队一起合作淘出这个企业所需要的几克的金子。但是ORACLE公司不仅仅生产淘金平台的公司,ORACLE是一个全套提供各种平台和产品的公司,这个淘金平台是我们的产品一部分,和我们其他产品连接整体的。
主持人:喻总说不管谁淘金ORACLE有钱赚。最后淘金人没赚钱,做工具的赚钱。
孙博凯:
我今天早上演讲中说的,大数据有自己的生命周期,从关系数据管理,非结构化数据管理,流数据,空间数据所有数据一个平台管理,现在加上HADOOP,与其他的数据进行连接,并且提供其他的数据,这样使用户可以从中得到价值和洞察力,这是我们要做的建立这样的平台。我们有一些客户做制造业,有一些政府部门,科学家,IT,他们都在用端到端平台,这是用刚才这位同事话说他们是淘金者,他们可以用我们的平台。
孙元浩:
英特尔有很强软件部门在后面,英特尔在大数据提供从CPU到高速存储,以及高速网络互联。我们和合作伙伴一起应对大数据挑战,帮助我们用户特别是中国的客户从大数据里面挖掘价值。
姚远:
大家都知道SAS是世界最著名数据分析企业,我们有很大沉淀,现在都希望抓好客户,我们做客户面对内部和外部数据,内部数据是销售记录,我们从这个人知道买最多,是不是最有价值,只代表历史数据。现在微博做的很多,每个人会展示自己态度,我们可以找关键词,找这个人的态度,可以做针对性营销,从这点我们从销售层面,从银行大家知道各位用信用卡,我们做反欺诈,因为有大数据量,我们要有一个法则,马上知道在什么地方,可能是危险欺诈,帮助您和银行减少很多损失,分析最主要是经验方法论,还有数据科学家,对业务数据理解,利用好大数据,这是我们提出来利用好大数据产生价值。
何英华:
大数据是天上下的雨水,对大家有用,住在一个山里面,我在后院放一个桶,把这个水接住,做不同东西。但是北京市区1500万人口,我们怎么样把云生出来雨水接住,然后分类,存储,水库,然后通过存储到每一家每一户里,要净化消毒有很大工程在里面,NetApp公司提供这样的整套从水库下水道再过滤然后供水到每家每户,大家可以打开水龙头可以用。整个下水道管理的很好。
主持人:
我问最后一个问题,刚才喻总讲一个片子,5个问题,CEO、CIO关注大数据的问题。利用大数据成本多少,利用大数据风险,大数据回报,看到大数据结果需要多长时间。我只问一个问题是风险。大家觉得企业做大数据利用大数据做事情时候风险在什么地方?
何英华:
很多企业谈的时候,大家在投资方面,大数据NetApp公司提供非常粗放性的,低端到高端有良好的粗放性,可能从一个部门一个分公司做到整个企业整个全球。NetApp在整个系列里,从2000到6000系列用一个平台,已经在整个低端中端高端我们是统一的数据管理平台。
今天在很多大企业里用的一些数据管理功能,今天在一个很小的小企业,中型企业我们可以用到,这样是降低企业风险。你们公司发展时候和很多不一样,有很多不同的,很多用便宜的,公司要成长从小企业到大企业痛苦的迁移,很多不兼容搬迁等等,NetApp公司消除这些方面,我们统一存储,我们是从低端到高端是统一的数据平台概念。
姚远:
风险不能盲目跟风,一定要有特色,每个企业要了解自己。数据质量是挑战,是不是有好的数据质量。我们要有清晰目标,大数据解决什么问题,还有很重要企业内部一定有好的数据科学家,不是数学专家,是理解业务的专家,有很好分析方法论,最后需要好的一个预测分析平台,能够利用好大数据,最后使用数据带来业务价值,对数据能力解释成为我们讲的真金白银的东西。
孙元浩:
大数据风险在于两个,数据增长怎么把应用迁到大数据平台上,我们看到特别电信、医疗、交通行业里,他们解决问题传统应用处理这么大数据,迁移时候投资非常大,目前我们看到大家开发全新应用,建立全新数据平台,当这些应用得到验证把老应用迁移过来。比如电信里面原来话单记录上网记录之前放关系数据库里,后来发现有问题,转到文件系统,现在发现需要HADOOP这样的方案可以处理,我们在国内帮助这些用户建立HADOOP存储这些记录以及网络数据,这些数据在传统应用迁移过来有很大问题。本身应用没有为大数据做过优化,我们在电信行业里创立一些崭新应用,像用户上网行为分析等等,这些应用和原来应用完全不同。这些应用得到验证老应用可以迁移过来。大数据价值得到体现。
第二个风险我们现在大数据风险谈数据挖掘,效果到底多好需要验证,这里不应该跟风。
在医疗行业,我们知道在国外已经开始用大数据做疾病分类,比如败血症分析,自动对疾病分类,但是分类好和坏,好不好这个需要得到认证。我们和国内医疗部门交流时候,他们一个最主要问题,我现在这些分出来结果到底对不对,会不会产生更严重问题,这是他们最大疑问。目前他们焦点集中怎么样把这些电子档案,电子健康档案病史记录怎么样数据源采集放医疗中心,把数据分享出来给医院和管理机构,这是他们要解决的问题。挖掘的分析产生效果需要得到验证。
孙博凯:
我们一直谈论大数据,我们有大数据会议还有很多供应商和媒体客户都谈论大数据,他们认为大数据是未来趋势,但是还是有一些风险,有时候有一些夸张,我相信我们的客户他们推荐这样的技术。因为在座是行家,他们知道这个数据能够帮忙我们解决问题。
很多消费者有这样的战略,有这样的平台,关键是如何把大数据集成到这个平台当中,想要解决什么样的问题,想实现什么新技术非常重要。我们错了方向的话,如果只是为了实施大数据的话可能是几个月之后我们就可以谈论我们到底出了什么问题,为什么我们出现了这么多问题,之前设想这么好,因此我们现在必须明确目标是什么,我们可能取得小成绩,我们选择一些项目,去实验这样的技术,然后从中吸取经验教训,从中获得经验。我们最终效果不会被夸大。
喻思成:
还是说挖金矿例子,本来没有太大风险,不会污染环境,很多矿山没有围墙,本身土和石头,偷两块无所谓,数据安全没有太大问题。想到风险,如果开始没有细致规划,可能挖矿队破产,有时候看起来民工便宜,生产效率不高,时间控制不好,对矿山结构了解不清楚,最后并没有挖出金子,真正有价值东西并不多,但是时间成本其他各方面成本越来越多,使挖矿队破产,不是所有找到金矿的队伍都赚钱,有很多亏本。
更进一步风险,一旦非结构化和结构化数据结合运转比较麻烦,比如说铁冶炼依靠矿山里面金子辅助才能把铁冶炼出来,通过非结构和数据冶炼产生实时非实时BI结果指导其他生产数据,这样的话大数据已经进入生产领域比较麻烦,如果不能实时产生这种BI分析结果会导致生产停顿,这个时候如何之前准备好,让所有的结构化数据和结构化数据企业平台计划好,不是大规模生产在车间里,同时让一个民工队带着工具挖矿山,这两点最后要合在一起,这个风险比较大。如果真的打算产生实时BI数据指导前线数据风险,之前要用好企业化计划,以及企业化生产工具和平台。
Andy HO:我同意他们谈论的观点,因为我们大数据有很多信息,首先知道我们要实现什么,挖出什么样的东西,在我们公司非常统一,我们在传统的数据库不需要连接器的,我们抛出联通的机械,我们非常支持这样的观点,大数据有很多信息在里面。因此不能够让太多人接触到这样的大数据,能够分析他们。因此从这个角度来说,如果只有一个人或者只有两个人能够接触到大数据的话,并且对他们进行分析,并且在向上级汇报,根据他们的需求不管是工程师,不管是更高的CEO,这样的话商业发展才能够正常进行。
公司CEO知道公司赚多少钱,有多少盈利,这些是对每个人也意义的。我们必须首先知道我们想知道什么信息,把整个系统和谐化。
主持人:
大家最终讨论企业需要什么,风险在企业,企业没有明白需要什么。我们讨论挖金子问题,对企业是挖金矿问题,实施得当可能挖到,不得当有风险。采金矿这个团队全军覆没。时间关系今天环节到这。
下午论坛给大家更多现场互动环节。谢谢大家。