扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:媒体投稿 来源:中国计算机报 2013年5月21日
关键字: 大数据
IT与华尔街(代表金融行业)的相生相长有两层含义:一是IT企业所需要发展壮大的资金,由华尔街帮助它们融资获得;二是华尔街对IT的需求往往高而超前,这加速了IT的进化。在大数据成为IT热点的时候,金融行业何以应对?
从来都不缺数据、一向以“高富帅”形象出现的金融行业被认为有足够实力玩转数据。那数据带来的苦和甜、喜与忧是否真如外界所假想?要找到答案,需要与从业者们进行一场坦率的交流。“以前走过弯路,现在意识觉醒,未来需依循章法”,在达成共识后,金融业里有志发挥大数据威力的IT、业务决策者们已经扬帆起航。
领悟数据标准
国家开发银行营运中心前处长、中经安信息科技公司现任总经理邱胜利在银行核心业务系统建设领域有超过16年的经验,他主持建成了国内第一个银行业务系统。邱胜利承认,在银行业中,对数据的利用存在“调子定得较高,实际使用还有一定差距”的痛处。
在系统建设过程中,邱胜利感受到的挑战很多:“数据乱象,缺乏数据标准,导致单纯的数据集中意义不大,即使系统建成,数据仍然无法得到有效利用。”
数据应用的瓶颈在于数据采集标准不规范,导致无法互联互通的数据孤岛遍地皆是。为此,国家开发银行特意成立了一个数据标准部门,按照真实的业务格式设定标准,对旧的数据进行移植和清洗,新的数据则搭建数据采集平台,底部打通,各个业务部门统一获取数据。
“一个大型集团的IT主管曾向我诉苦,数据根本没法统一采集。试想,一个规模较大的银行会有上百个业务系统,如果这些系统不统一按照标准采集数据那将多么可怕,数据的完整性、可靠性、安全性更是空中楼阁。”邱胜利指出,数据清洗和系统的灵活性也很重要。由于行业规则的频繁变动和严格的合规性要求,银行数据系统需要及时调整,“一个有威信的数据平台就像一棵树的主干,新老业务系统就像这棵树上的枝叶,可以不断分杈生长”。
证券行业同样经历过数据标准的阵痛。首创证券有限责任公司技术总监伏劲松感慨道:“以前受带宽和处理能力所限,证券行业采取多种数据描述语言,各显神通,接口互不兼容。”所幸的是,现在这些限制被打破,数据描述语言也因此通用。“目前,所有上市公司的财务报表都要求用XBRL(可扩展商业报告语言)语言编写,金融行业的数据通用标准基本成型。”
大数据应用的层次感
回顾以结构化数据为主导的数据利用过程,不难发现数据让金融业痛并快乐着。时间的步伐往前走,数据的表象也在发生变化。
正如英特尔中国研究院首席工程师吴甘沙所形容的,旧认识是“数据是稀缺资源”,这直接导致“数据小农”心态,即拣着测、挑着存、采着样来处理。大数据观是数据没有累赘,应具备全样性和全量性。这种急剧的变化使得大数据的利用更为复杂和艰难。
来自用户的声音表明,金融业各个细分领域对大数据的驾驭能力已现差距——赛迪顾问调查结果显示:银行对于数据的管理、应用、安全方面的需求迫切,现阶段数据起辅助性作用;保险行业对数据的利用程度较高,由“集约化使用”向“智慧使用”迈进;证券业和期货业数据利用力度不断加大,将从客户服务渗透至业务层面;支付行业困惑于如何使用数据。
在中国民生银行电子银行部北京运营中心总经理马景丽看来,银行追求标准化和规模化的经营模式。这其中,数据的应用发挥了重要作用,数据营销和事件营销已不神秘。但“我们应用的数据和事件还局限于内部的存量数据。应用场景比较简单:在数据仓库里定义一些规则,客户有大额支出,或理财产品到期,这些事件都会让资料信息弹出来,我们就跟踪做二次营销;中国人民银行通知超级网银要停两天,我们会通知客户提前处理资金”。
她意识到,这些跟大数据差距甚远,银行业务发展的数据,目前主要基于结构化数据,“我理解的大数据应该是除了财务数据以外,增加客户的行为数据”。领导关注大数据,但对“大数据对业务的支撑效果”不明确,不懂怎么投入,不懂怎么引进技术。“数据仍只是一种辅助工具,不是决定成败的关键内容。”马景丽认为,要解决这个问题,必须让决策人员明确回报,能规避什么风险,也需要教会业务人员如何使用新系统,毕竟在银行业,大家是很愿意投资和应用新技术的。
国内保险行业最早的大数据掘金者之一、德华安顾保险董办主任王洪涛表达了对国内保险行业对大数据集约化使用向前再跨一步的希望:“集约化使用是把客户数据、交易数据和接触数据进行逻辑归并,消除信息孤岛,从而提高业务处理效率,更好地控制风险。在这方面,保险行业内的认识已经比较深刻,都已有所行动。2009年,我在阳光保险集团主持的客户信息基础库建设,建立了跨产寿险的客户统一视图;我现在参与筹建德华安顾人寿保险公司,在系统开始搭建时就做到数据的集中。”
下一个阶段是智慧地用,这意味着“利用数据挖掘,发现保险行业内的新知识,从而将保险行业的数据坟墓转变为金矿,形成独特的核心竞争力。在这方面,保险行业仍然处于开拓期。”
王洪涛介绍,国际上,保险行业的大数据智慧应用集中于以下方面:客户细分、代理人甄选、营销响应、交叉销售和二次销售、欺诈监测、流失预警、客户挽留等。在国内保险行业,他已主持了一些保险大数据智慧应用的项目,主要集中在客户细分、代理人甄选、交叉销售、客户体验等方面。他从2010年开始,在阳光保险集团主持建成了数据挖掘系统,这在保险行业是创先河的,并开展了许多保险大数据智慧应用的项目,培养出了国内保险行业的第一批数据挖掘师。他希望自己的成功经验可以在同行业内复制和推广。
银河证券信息中心主任技术总监唐沛来刚刚从华尔街归来,通过实地考察,他感受到了国内外证券行业在大数据应用上的差距。
“国内证券行业的大数据应用目前更多地针对结构化数据,主要应用于客户服务,比如我们根据客户的买卖信息来分析他的投资偏好,从而推送不同的投资建议。而国外对冲基金的量化交易已经充分将数据利用起来。”唐沛来详细介绍了量化交易是如何将数据与交易指令的生成和执行紧密关联起来的——量化交易把注意力从大势的涨跌上移开,将某只股票近十年的行情数据调出来,结合最新的财务报表,当下的新闻事件、政策这些包含结构化数据和非结构化数据的信息,进行计算,并根据预先设定好的数学模型判断是买入还是卖出。
“由于外界数据的波动性,量化交易需要随时抓取最新数据,数据模型会根据交易状况不断进行调整和完善。”唐沛来认为国外量化交易已经实现了大数据对业务的驱动,“数据模型的准确性和速度都至关重要。为了追求3ms的数据传输时间的改进,有对冲基金专门在纽约和芝加哥之间架起了微波卫星。谁先完成数据的处理过程,谁就占有先机。”
唐沛来表示,银河证券也在尝试深化大数据的应用,“以发送给股民的预测报告为例,我们会使用更多的数据来支持该报告,不光是行情数据、财务报表数据,还有从社交媒体,如QQ、微信那里获取并经过处理的数据,分析大众的情绪,获悉哪些词代表正面,支持上涨,哪些词代表消极”。
至于以散户为主且风险较大的期货行业,数据的利用更直接地表现为CRM和个性化服务。“期货公司会建立客户服务中心,进行客户数据分析和数据挖掘。对客户进行分类,并确定新开发客户的目标,还会根据现有客户的盈利率进行分析,为客户提供不同的投资服务。”中国期货业协会信息部主任刘铁斌指出,目前国内期货业利用数据在客户开发方面的力度较大,但后续的客户服务没有跟上。
在业务层面,刘铁斌认为,客户数据对业务的推进,以及量化和高频交易在期货市场的应用都将是大数据价值在期货行业的重要体现。
第三方支付是金融业的新兴势力。来自快钱支付和拉卡拉支付的业务人员表达了希望将自有的大数据与实际业务结合起来的愿望:“支付公司拥有真实的海量交易数据,完全可以在将数据清洗后,为银行提供金融服务参考,比如根据企业的进出账,进行信用评级,作为发放贷款的依据。根据个人的消费活跃度,推荐理财服务等。”但支付行业对半结构化数据和非结构化数据还没有形成系统认识,商业模式也没有明确,“我们会给用过拉卡拉终端的客户打电话或者发短信,介绍促销活动,或者给商家打电话,联合开展促销活动,以促进刷卡量,而拉卡拉的收益就是手续费。这是一种低层次的数据应用,我们希望能找到更聪明地应用数据的方法。此外,我们还头疼于哪些数据是有效的,如何将这些有效数据过滤出来”。
平台上的双赢
“从使用方的角度来说,大数据的集中、清洗、管理,尤其是如何通过分析与业务结合起来,是我们对大数据的迫切需求。”刘铁斌代表应用方将用户需求摆了出来。这些需求明确指向“技术厂商应深刻理解大数据的内涵,提供具有说服力的整体解决方案”。
作为一家端到端大数据解决方案的提供商,英特尔从两个层面理解大数据:一个是广义层面的,一个是狭义层面的。“从广义层面来讲,大数据是一个通过数据驱动业务发展的理念,比传统的BI更加强化这种理念。对企业来讲就是开源节流,开源指的是怎么用数据创建新的业务,获得更多的收入,节流指的是怎样管理好企业内部的运营流程,节约成本。金融业属于服务行业,在服务行业里面最关键的是大数据的价值杠杆,即怎么样去做好客户的精细化管理和精细化刻画。”英特尔数据中心软件部大数据产品技术顾问黎超阐述了英特尔心目中的大数据涵义,“从狭义层面来讲,大数据并不是一个新概念,它的复兴受到两方面因素的影响:一是获取收集数据的成本大幅降低,二是企业深刻认识到数据是一种资产,以前在数据清洗的过程中,限于持有成本,对数据的属性有所取舍,但新形势下的新挖掘和分析可能会需要那些被舍去的属性。长期保留原始数据格式的重要性已得到公认,因为一旦有新的业务需求,可以利用原始数据再次进行数据加工和数据分析。”
大数据的意义和它的关键属性直接对数据平台的建设提出了更高的要求。英特尔将这些挑战进行总结,以期为行业发展提供借鉴。
“第一个是数据持有成本,这主要是硬件成本。就算是金融行业这样的资金大户,在遭遇PB级数据量所需的数亿元投资时,仍会‘一身冷汗’,因此要坚持大数据的持有成本可控,尤其是低价值密度数据持有成本要可控。”黎超指出,企业运营数据,价值密度相对较高,但伴随着互联网对传统行业的改造,越来越多的企业导入来自互联网的相关数据,这些数据大部分属于低价值密度的数据,单看某一个网页或者单看用户某一次点击行为没有任何意义,只有把数据积累到一定程度分析才有结果,此时就应该在尽可能满足分析的前提条件下,尽量去降低硬件成本。
第二个是软件成本。“很多企业感叹,我们被软件厂商绑架了,因为要不停地进行巨额的软件投资以跟上新技术的发展步伐。从互联网行业的成功范例来看,可推广的模式是开源与商业化相结合。”黎超表示,开放可以让用户能够建立完整的知识体系,商业化则能引入竞争,在开放与商业化结合的平台上,新技术的发展会让用户和解决方案提供商实现双赢。
第三个是系统必须在最初就具备弹性。大数据的增长速度之快,使得企业无法在部署之初就做好宏大的规划,也无法一次性投入巨大的建设成本。“用与时俱进、按需分配来形容系统的不断扩容很合适,大数据系统的建设与数据的增长匹配,成比例发展,这是大数据与云计算结合的体现。”
第四个是统一不同来源数据的物理存放和数据的再加工。前者是为了方便数据的读取,形成对数据的完整视图。后者指的是业务发展要求不停地把不同来源的数据进行重新组合,生成新的数据模型,来反映经营状态,指导经营需求,这就意味着大数据平台要能够把异构的数据统一,长期存放在一起。
英特尔所提供的解决方案体现了其对大数据平台挑战的深刻理解。“英特尔在企业应用大数据应用的角色上,对自己的定位是企业大数据端到端的软硬件基础平台层的供应商。传统意义上,英特尔是芯片厂商,主要提供硬件。英特尔逐渐发现一个问题,单单提供硬件离客户太远,很多情况下解决不了用户的实际需求,因此英特尔调整了自己的思路和做法——建立生态体系,靠近用户,提供软件平台。英特尔发行版Hadoop软件就是一个很好的例子,它结合了商业化技术和开源技术,足以支撑企业的大数据应用。” 黎超强调在英特尔为大数据提供的强大硬件支撑,如芯片、服务器、存储和网络之外,英特尔的软实力也崭露头角。
找到好的数据工程师
赛迪顾问指出,如果利用得当,大数据可在加强风险管控、精细化管理、业务创新等业务转型中起到重要作用。首先,大数据能够加强风险的可审性和管理力度,支持业务的精细化管理。其次,大数据支持服务创新,能够更好地实现“以客户为中心”理念,通过分析客户消费行为模式,提高客户转化率,开发出不同的产品以满足不同客户的市场需求,实现差异化竞争。
“大数据应用的最终决定因素是人,数据科学家的重要性浮出水面,其价值在于在标准层面理解所在行业的业务和具备一定的IT技能,利用好大数据工具。”黎超表示,大家对数据科学家这个角色的期望较高。
“数据工程师所要求的职业技能,计算机技能逃不掉,第二个是统计分析,第三个是机器学习。大数据模型中的发散分析超越了统计专业人员的计算机应用能力,必须由数据工程师来完成。”伏劲松对金融行业的数据工程师求贤若渴,但从人才培养的角度来看,欧美国家数据工程师人才缺口很大,中国这方面的人才储备充足,但实际应用少,没有用好这些人才。
从业务的层面来看,伏劲松希望大数据可以超越客户服务的范畴延伸到产品设计。他从Twitter美国白宫发言人账号被盗发布假消息导致美国股市巨幅波动中看到了大数据对金融交易的深层次影响。“美国联邦调查局、SEC和美国期货监会对这个事件节点前后5分钟的24个品种的远期合约联合展开了调查。”伏劲松饶有兴致地讲道,从社交网络出发进行个人或集体行为分析,再与投资关联。三大监管部门之所以调查,是因为这也算一种事件驱动投资策略的表现,不排除某些金融机构在利益的驱使下,故意而为。“我的想法是,反过来讲,社交媒体也会为金融行业带来高额的利润,关键看如何根据社交媒体数据来提取产品特征,进入金融行业的核心业务。”
此外,风险管控也能体现大数据对金融业务的影响。“以量化投资为例,竞价、风险管理、优化都离不开利用数据挖掘信息,而分散风险和对冲风险则体现在找到数据之间的正相关和负相关性。”伏劲松总结道,“大数据在金融行业的应用大有可为。”
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者