
要说到数据分析什么最重要这个话题的话,很容易引发热力的讨论。但是对于道富银行前高级副总裁、数据治理负责人David Blaszkowsky看来,最重要的事情很容易被日常生活中的琐事冲淡并忽略:你企业机构内的数据文化。你可以灌输和试图强制执行数据收集相关的很多规则,但如果你的企业机构没有一种真正相信数据重要性的文化,那么最终会以失败而告终。
这意味着企业机构需要真正了解他们在数据方面的目标和任务是什么。"如果从一开始你就考虑数据应该是什么、应该意味着什么、你希望如何使用数据、收集和维护数据的方式会带来怎样的影响等等一系列问题的话,那么事情就会容易很多了,"Blaszkowsky这样表示。你可以有很多精良的分析系统,但是归根结底是数据本身以及你打算如何利用这些数据。今年在美国麻省理工学院举行的首席数据官CDO论坛上,Blaszkowsky接受采访时这样说。
利用分析找出风险
当被问及如何预测未来的金融灾难时,Blaszkowsky强调说,你无法有把握地预测这种事,但是你可以在风险因素出现的时候发现它。
"首先,找出能够识别风险的分析类型,然后对进行这些分析所需数据进行标准化,"他说。但是,在灾难过后有效清理是一个随着时间推移要学习的事情。Blaszkowsky的策略是一种为灾难做准备的好方法,此外还要部署好系统以防不幸的事情发生。
MIT CDOIQ研讨会的演变
作为参加多多届麻省理工学院CDOIQ研讨会的人,Blaszkowsky看着这个活动不断壮大,人们提出的问题也从"我们如何找到数据?"延伸到更实际的案例。
他每年都参加这个会议的另一个原因就是他希望与公共的、私人的以及学术部门之间分享信息和最佳实践,"这种分享成果是惊人的,"他补充说。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。