《“十四五”大数据产业发展规划》提出,数据已成为重要的生产要素,大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑。
与此同时,各类企业也纷纷启动大数据战略,希望聚力数据要素,实现多重价值挖掘。联想集团作为中国数字经济领导企业以及全球智能设备的领导厂商,早在2018年,就提出基于设备和云的大数据战略,希望通过构建基于数据湖的统一数据平台,来支持企业全价值链的数据资产的采集、存储和应用,实现内部数字化智能化转型加速以及更好的支撑对外以客户为中心的业务转型。
近日,在北京举办的首届中国数据治理年会上,联想集团凭借全球 IT 部门数据平台管理的实践成果,在本次大会中斩获“2022年度数据管理十大名牌企业”。同时,由联想全球 IT 部门自研的“联想大数据平台建设及运营案例”还成功入选“2022 年度数据管理百项优秀案例”。
联想大数据平台获奖的背后有哪些原因?其最核心的价值是什么?2023年的创新重点如何发力?
打造领先大数据平台背后的三点思考
作为一个国际化企业,目前联想拥有上千套 IT 信息系统。这些信息系统采用多种不同的商业或开源架构,因而存在多种不同的结构形式。在长期业务运营过程中,系统中积累了百万数据量级别的数据对象构成的海量数据集,产生了PB级数据量,而且每年有30%左右的增长率。因此联想大数据平台需要考虑IT系统众多、数据不断增长以及业务多样性等需求。
从愿景、技术架构以及数据治理三个层面,联想大数据平台基于行业领先的实践和积累,其独特的优势逐步显现并收获行业认可。
首先,联想推动数字化转型的愿景明确。企业管理层不仅有愿景驱动,希望能真正建立一个大数据平台,能够支撑联想未来的数字化转型。与此同时,在组织结构和流程方面也为支撑这样的愿景提供了有力保证。例如,由数字化转型团队负责数字化转型策划,专门的公司数据治理组织负责制定流程和监管流程是否得到执行,以及如何去定义数据治理方面要达到的最后交付物等。
其次,从技术架构而言,联想大数据平台采用的是私有云+公有云的混合云技术方案来保证技术方面的先进性。“数据资产上云容易、下云难,因此希望能够有效保留住我们的数据资产。尤其是在现在比较新的一些应用上,例如像AI、机器学习等——这些应用都需要进行大量的数据训练。我们希望在数据湖的层面上,在私有云上做部署。”联想集团全球IT副总裁方雨谈到。
联想全球IT部门结合湖仓融合的体系架构,通过混合云方式部署了支持全球数据能力的现代化企业数据平台,在满足全球数据安全和合规的基础上,加速推动数据战略从数据资产管理到数据资产治理转换,在公共数据模型建设、元数据管理、数据生命周期管理、数据安全、数据质量和数据运营等管理领域上逐步建立和完善了相应能力。
从数据层面上来说,基于联想的实践经验,数据资产是治理出来的。在过去的概念里,企业众多系统中产生的大量生产数据会形成一些报表,而在特定系统里,可能这些管理报表能满足日常运营的需求,但在面对更深层的数字化转型时,就涉及到大量的跨部门,就是在各部门之间寻求数据的统一标准、数据的统一解读。
数据治理是真正形成数据资产关键的一步,也是联想落实 DCMM(Data Management Capability Maturity Model,数据管理能力成熟度模型)国家标准贯标的关键能力。
联想大数据平台的核心是数据治理
从技术到数据治理,再到愿景,可以说是联想大数据平台极具差异化的优势所在。同时联想特别强调数据治理,因为离开数据治理就谈不上数据资产,只能称之为系统的原始数据而已。一方面联想积累了大量的数据,如果变成资产,将会是很大一笔财富;从另外的角度来看,联想在数据量如此庞大的情况下,其治理的工作量和挑战也非常大。
对此,从联想的实践经验来看,数据治理的关键环节是“找到数据”,有咨询机构估计,一般分析类项目大概超过50%以上的时间是花在找到那个数据上。
什么叫“找到数据”?以联想为例,例如,当需求部门提出一个分析类需求时,比如按照中国大区华北区、华东区的销售额分类,会发现其实很多公司对一个简单的销售额KPI有不同的定义。那么当企业从更高层面去看这些数据时,会发现1+1不等于2,原因就在于大家对销售额KPI定义是不一致的。因此在这些项目提出一个简单需求后,首先就面临着这样一个问题:到底在哪些表格里的哪些字段是跟销售额相关的?
定义字段,清洗数据和发现数据与数据之间的关系即“找到数据”的三个重要环节。因此,联想从实践角度出发,进行了很好的元数据管理,即花了大量的时间整理这些关键的指标分别在哪个表格,分别在哪个字段,又是什么含义。满足从数据整理到数据治理,最终实现最后的数据呈现。
统一的数据平台驱动更高效的业务管理决策
一个好的大数据平台核心价值是赋能业务团队,因此联想大数据平台将聚焦业务赋能、降低平台维护成本以及提升用户体验。
首先是赋能业务团队,提供更多价值。联想充分认识到无论是数据平台本身的建设,还是在数据的消费层面上,都需要平台有赋能的能力。“想象一下,如果每个开发团队都要自己去操心到底哪些数据是合规的,哪些是不合规的,那么这将是非常大的投入。因此我们希望平台能够在这个层面上为大家提供赋能。”方雨谈到。
其次,联想希望再次优化整个数据平台的维护成本。“我们看到现在在联想大数据平台上面建设的项目越来越多,需要保证维护的成本是可控且较低的,而不能是有多少个项目就有多少人维护,所以要降低维护成本。”方雨最后讲道,降低维护成本并不意味着牺牲用户的体验,未来联想大数据平台会在提升用户体验的前提下,不断探索更高效的运维模式。
好文章,需要你的鼓励
大数据可观测性初创公司Monte Carlo Data推出全新Agent Observability产品,为AI应用提供全方位数据和AI可观测性。该工具帮助团队检测、分类和修复生产环境中AI应用的可靠性问题,防止代价高昂的"幻觉"现象,避免客户信任度下降和系统宕机。新产品采用大语言模型作为评判器的技术,能够同时监控AI数据输入和输出,提供统一的AI可观测性解决方案。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
网络安全公司Aikido披露了迄今最大规模的npm供应链攻击事件。攻击者通过钓鱼邮件获取维护者账户凭证,向18个热门JavaScript包注入恶意代码,这些包每周下载量超过26亿次。恶意代码专门劫持加密货币交易,监控浏览器API接口将资金转移至攻击者地址。受影响的包括chalk、debug等广泛使用的开发工具库。虽然攻击在5分钟内被发现并及时公开,但专家警告此类上游攻击极具破坏性,可能与朝鲜黑客组织相关。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。