《“十四五”大数据产业发展规划》提出,数据已成为重要的生产要素,大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑。
与此同时,各类企业也纷纷启动大数据战略,希望聚力数据要素,实现多重价值挖掘。联想集团作为中国数字经济领导企业以及全球智能设备的领导厂商,早在2018年,就提出基于设备和云的大数据战略,希望通过构建基于数据湖的统一数据平台,来支持企业全价值链的数据资产的采集、存储和应用,实现内部数字化智能化转型加速以及更好的支撑对外以客户为中心的业务转型。
近日,在北京举办的首届中国数据治理年会上,联想集团凭借全球 IT 部门数据平台管理的实践成果,在本次大会中斩获“2022年度数据管理十大名牌企业”。同时,由联想全球 IT 部门自研的“联想大数据平台建设及运营案例”还成功入选“2022 年度数据管理百项优秀案例”。
联想大数据平台获奖的背后有哪些原因?其最核心的价值是什么?2023年的创新重点如何发力?
打造领先大数据平台背后的三点思考
作为一个国际化企业,目前联想拥有上千套 IT 信息系统。这些信息系统采用多种不同的商业或开源架构,因而存在多种不同的结构形式。在长期业务运营过程中,系统中积累了百万数据量级别的数据对象构成的海量数据集,产生了PB级数据量,而且每年有30%左右的增长率。因此联想大数据平台需要考虑IT系统众多、数据不断增长以及业务多样性等需求。
从愿景、技术架构以及数据治理三个层面,联想大数据平台基于行业领先的实践和积累,其独特的优势逐步显现并收获行业认可。
首先,联想推动数字化转型的愿景明确。企业管理层不仅有愿景驱动,希望能真正建立一个大数据平台,能够支撑联想未来的数字化转型。与此同时,在组织结构和流程方面也为支撑这样的愿景提供了有力保证。例如,由数字化转型团队负责数字化转型策划,专门的公司数据治理组织负责制定流程和监管流程是否得到执行,以及如何去定义数据治理方面要达到的最后交付物等。
其次,从技术架构而言,联想大数据平台采用的是私有云+公有云的混合云技术方案来保证技术方面的先进性。“数据资产上云容易、下云难,因此希望能够有效保留住我们的数据资产。尤其是在现在比较新的一些应用上,例如像AI、机器学习等——这些应用都需要进行大量的数据训练。我们希望在数据湖的层面上,在私有云上做部署。”联想集团全球IT副总裁方雨谈到。
联想全球IT部门结合湖仓融合的体系架构,通过混合云方式部署了支持全球数据能力的现代化企业数据平台,在满足全球数据安全和合规的基础上,加速推动数据战略从数据资产管理到数据资产治理转换,在公共数据模型建设、元数据管理、数据生命周期管理、数据安全、数据质量和数据运营等管理领域上逐步建立和完善了相应能力。
从数据层面上来说,基于联想的实践经验,数据资产是治理出来的。在过去的概念里,企业众多系统中产生的大量生产数据会形成一些报表,而在特定系统里,可能这些管理报表能满足日常运营的需求,但在面对更深层的数字化转型时,就涉及到大量的跨部门,就是在各部门之间寻求数据的统一标准、数据的统一解读。
数据治理是真正形成数据资产关键的一步,也是联想落实 DCMM(Data Management Capability Maturity Model,数据管理能力成熟度模型)国家标准贯标的关键能力。
联想大数据平台的核心是数据治理
从技术到数据治理,再到愿景,可以说是联想大数据平台极具差异化的优势所在。同时联想特别强调数据治理,因为离开数据治理就谈不上数据资产,只能称之为系统的原始数据而已。一方面联想积累了大量的数据,如果变成资产,将会是很大一笔财富;从另外的角度来看,联想在数据量如此庞大的情况下,其治理的工作量和挑战也非常大。
对此,从联想的实践经验来看,数据治理的关键环节是“找到数据”,有咨询机构估计,一般分析类项目大概超过50%以上的时间是花在找到那个数据上。
什么叫“找到数据”?以联想为例,例如,当需求部门提出一个分析类需求时,比如按照中国大区华北区、华东区的销售额分类,会发现其实很多公司对一个简单的销售额KPI有不同的定义。那么当企业从更高层面去看这些数据时,会发现1+1不等于2,原因就在于大家对销售额KPI定义是不一致的。因此在这些项目提出一个简单需求后,首先就面临着这样一个问题:到底在哪些表格里的哪些字段是跟销售额相关的?
定义字段,清洗数据和发现数据与数据之间的关系即“找到数据”的三个重要环节。因此,联想从实践角度出发,进行了很好的元数据管理,即花了大量的时间整理这些关键的指标分别在哪个表格,分别在哪个字段,又是什么含义。满足从数据整理到数据治理,最终实现最后的数据呈现。
统一的数据平台驱动更高效的业务管理决策
一个好的大数据平台核心价值是赋能业务团队,因此联想大数据平台将聚焦业务赋能、降低平台维护成本以及提升用户体验。
首先是赋能业务团队,提供更多价值。联想充分认识到无论是数据平台本身的建设,还是在数据的消费层面上,都需要平台有赋能的能力。“想象一下,如果每个开发团队都要自己去操心到底哪些数据是合规的,哪些是不合规的,那么这将是非常大的投入。因此我们希望平台能够在这个层面上为大家提供赋能。”方雨谈到。
其次,联想希望再次优化整个数据平台的维护成本。“我们看到现在在联想大数据平台上面建设的项目越来越多,需要保证维护的成本是可控且较低的,而不能是有多少个项目就有多少人维护,所以要降低维护成本。”方雨最后讲道,降低维护成本并不意味着牺牲用户的体验,未来联想大数据平台会在提升用户体验的前提下,不断探索更高效的运维模式。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。