
作为一座大型城市的CDO,与普通CDO是决然不同的。Sam Edelstein作为纽约雪城的CDO,证明了自己是给非典型的CDO,不仅是他现在的职位,而且还有他获得这个职位的职业历程。
在取得信息管理硕士学位之前,Edelstein曾经作为报社记者、在韩国当过英语老师、在华盛顿当作社交媒体经理。在取得硕士学位之后,Edelstein开始为在雪城市长办公室的Office of Innovation(由彭博慈善基金会资助)担任分析协调员。今年在美国麻省理工学院举行的首席数据官CDO论坛上,Edelstein接受了采访。
数据和城市的基础设施
基础设施会产生很多数据点。例如,记录每个漏水点、坑洞和下水道堵塞的数据,这些都是孤岛数据。Edelstein将这些标记为没有被合并的数据,但是最近,他开始查看重叠的数据。
过程是这样的:假设有一条路需要重铺,在修路之前,他会查看最近五年这条路上任何关于漏水的记录。这样,Edelstein就可以避免因为一些反复出现的问题而在完成铺路之后还要维修。
开放数据的价值
Edelstein谈到了联邦和各州开放数据的用途。New State Portal是可搜索的,记录了交通之类的信息。当作城市规划的时候,这些数据可能是很有用处的。
"如果他们在我们的城市中做了这种调研的话我会很高兴的。"Edelstein这样评论说,当这些数据公布的时候,应该以一种"数据驱动的方式",作为"关键数据集"首先发布。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。