科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道联通王志军: Hadoop和大数据在行业里典型的应用  

联通王志军: Hadoop和大数据在行业里典型的应用  

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

联通依托于开源的Hadoop技术,构建了上网数据为核心的数据平台,这个数据平台目前是全球通信行业中首次实现了全网记录的采集和集中存储,也是首次向用户提供实时查询的服务,到目前为止还没有第二家运营商做这件事。

来源:ZDNet存储频道【原创】 2013年12月10日

关键字: 联通 Hadoop 大数据

  • 评论
  • 分享微博
  • 分享邮件

联通依托于开源的Hadoop技术,构建了上网数据为核心的数据平台,这个数据平台目前是全球通信行业中首次实现了全网记录的采集和集中存储,也是首次向用户提供实时查询的服务,到目前为止还没有第二家运营商做这件事。日前联通研究院移动互联网产品事业部主任王军先生就联通在大数据方面所做的应用进行了讲解。

王主任主要从四个方面介绍了大数据的应用:第一方面源起;第二、电信运营商有哪些大数据;第三、中国联通建成的正在投入使用的大数据业务系统;第四、大数据应用的展望等等。

源起,流量消费首先是计费单位是KB,对普通的消费者来说,并不了解是什么是KB,对流量计费的单位很难了解清楚。另一个方面流量消费有一定的不确定性。现在3G客户数据流量争议占3G业务投诉是10%,例如智能手机语音的应用、有很多自动更新的应用,这些应用并不是使用了才产生流量,这种情况下用户难以理解。如果是给用户提供详单,联通就需要做准确的计量设备做流量的区分。由此可见提供用户上网记录详单,成为了互联网透明健康环境的关键的因素,这是运营商希望能够做到的事情。

上网记录是典型的大数据,每位联通用户可能每月的通话记录是几百、几千条,上网的记录绝对不是这个数量级,可能是几万,用的量大可能是几十万条上网数据。经过统计,中国联通用户上网记录每个月是超过了两万亿条,这么大的数据量,并且还在增长。数据量是全国目前运营商所有类型的计费话单的30倍以上,包括语音详单、短信详单、采信详单以及包括此前运营商给的流量记录详单,所有的数据量的30倍以上。

此前运营商采用的架构方式是IUE的架构,用IBM小型机,用商用的关系型数据库,用高可靠性的EMC的存储,构建无论是计费系统还是帐户系统,很多的系统都是这样方式构建的这个很昂贵,但是无法解决问题。存储这么大规模量的数据,以后超越了可管理容量的上线。在做查询的时候,关系型数据库对大规模操作的时候性能是严重下降的。

之后联通采用了有了Hadoop,Hadoop相当于可以帮助解决这些问题,它采用开源的方式,构架了普通的PC服务器之上,抛弃了高端的存储,也可以保证高可靠性,适合数据快速的写入,以及有快速检索的方式,这样相当于有十亿的业务需求解决不了问题,这是真正的商用系统上第一次亲密接触。

电信运营商有哪些数据?包括通话网络、宽带的网络,包括移动互联网的行为,以及很多通过用户拨打电话积累下的很多数据资源,还有云通讯录、位置服务,而很多的数据在联通的网络中并没有很好的利用。

同时,数据分布在很多地方,这么多的数据到底哪些是大数据呢?可能有些数据在现在来看,以前是大数据,现在来看并不算什么大数据,我们认为运营商有两类数据,一类是过程数据,例如说淘宝,最终在购买一个产品之前整个的过程发生了什么,这是过程数据,现在虽然在用一次微信,但是其实对运营商的网络是很复杂的过程,在什么基站之下,运营商如何寻知你,上网过程发生了什么,整个数据对运营商来说都很重要。

中国联通现在大数据业务系统,主要是应对几个挑战。

第一、是流量争议、明白消费。

第二、信息安全监管的挑战,需要把一些用户上网行为数据存储下来,为了未来的信息安全监管的需要。

第三、数据挖掘、用户行为分析。

第四、智能感知健全,挖掘出来的术语很多时候需要跟目前的网络上下文关联起来,例如说做了用户的画像,当前在什么场景下,要结合网络上下文,如果是在喜来登的酒店中午的时间,我们利用一些数据就可以给你推荐一个比较好的餐馆等等的方面,数据在什么时间发挥什么效用都是要做的。

还有应对移动网络建设和智能分析,目前网络的建设是缺乏科学性的。联通在全国31个省份构建了分光采集系统,采集用户所有的移动上网数据的流量,通过DPI的设备解析用户上网的数据,构建了一套新的计量系统、采集系统,这些数据全部汇总到联通总部大数据平台上,上网记录数据每月两万亿条记录全部汇总到大数据平台上,构建了相关的业务系统。目前每日采集的原始数据流量是接近1GB。


大数据平台上,基于Hadoop构建了分布式的数据处理系统,上面是上网记录数据、日志留存的数据等等的数据,这些数据在不断的进行扩充,联通构建了“数据仓储”,会对原始的数据做轻度的汇总的操作,来形成各种统计分析的数据,以及基于这些数据构建用户的互联网上的用户的画像。另外也构建了互联网用户标识库,如果在使用微信,联通会知道只要使用了微信,就知道你不仅是个联通用户也是微信用户。

大数据挖掘应用还可以提供更多的用途:个性化的推荐,有的推荐可能是实时的,有的是非实时的,通过数据挖掘,再配合前台的数据更新处理,这两者结合之后,就知道用户上下文的信息,就可以知道更多的信息,从而做出更具个性化的精准推荐准。能广告的投放,目标是怎样的、投放给谁、通过什么渠道去投放,以前的运营商接触用户的渠道是手机号码,联通通过网络行为的数据,可能会知道微信号码,这样有更多的开放的渠道,这些开放的渠道,从运营商的角度也可以开放给第三方应用,第三方应用通过调用服务也可以利用渠道去接触用户。

 

依托大数据平台,联通实现了客户服务的创新,解决了透明消费的问题,当然也不是彻底解决,而是一定意义上解决了透明消费的问题,让用户放心消费。同时,在应用到运营商的网络规划和建设方面,初步构建了大数据分析和挖掘平台,这个平台可以进一步把数据开放出去跟合作伙伴共享。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章