过去两年当中,企业用户眼中最热门、最时髦的词汇就是“大数据”。众多公司拼尽全力想弄清楚自己到底如何对收集到的数据加以利用、又需要怎样将其转化为竞争优势。不过根据麻省理工学院信息系统研究中心主任Jeanne Ross的观点,这类方案并不是一套能够万试万灵、广泛适用于当今企业需求的解决办法。
作为《你可能根本不需要大数据》一文的作者,Ross提醒企业用户在着手购买之前认真分辨那些包围着大数据的炒作迷雾。
“我认为大家会在大数据世界的游历当中不断成长,”Ross指出。她解释称,确实有一些来自特定行业的企业利用大数据获得了一定的竞争优势。举例来说,她提到石油与天然气行业长期以来一直利用大数据帮助其决定何时、何地投入大量资金建设基础设施。然而特定产业的成功案例并不一定足以指导或者被推广到其它领域当中。“我确实见证过众多客户在实践活动中取得了辉煌的成功。我们只是还没有找到能够将其再现的确切方法。”
当被问及这些企业在感受到大数据问题的解决难度并因此产生恐惧是否属于认知偏差时,Ross指出“不,其实不存在什么偏差。如果大家自认为做不到,那么结果往往也确实如此。”对于那些第一次意识到大数据当中蕴含潜在价值的企业而言,这样的结论确实令人有些沮丧。
感兴趣的朋友可以观看下面这段完整的采访视频:
“我认为大多数企业其实并不属于数据驱动型机构,”Ross解释道。“我认为他们其实属于指标驱动型。”
这种差异的意义其实非常重大。当下众多企业都能对特定类型的数据作出响应,但要想真正转化为数据驱动型机构、他们需要深入意识到数据的重要价值。举例来说,Ross援引了来自澳大利亚的付费电视服务商Foxtel作为论据。
“他们很清楚自己计划推出什么样的产品,也很清楚客户们希望收看哪些频道,”她指出。然而这些信息并不足以帮助他们制定战略决策。“他们重新审视了各个环节,并意识到‘数据驱动’的核心含义是什么。事实上,他们根本没有必要刻意强迫自身向所谓数据驱动靠拢。”
在谈到CDO这一新兴角色时,Ross解释称目前普遍存在这样一种假设,即一旦某家企业引入了CDO职位、那么所有与数据相关的工作都可以将其打理,也就是说几乎没有进一步关注此类话题的必要了。Gartner通过调查发现,25%的受访企业计划在未来一年内设置CDO职位,但Ross强调称绝大多数企业可能根本没必要聘用这样一位新高管。
要成功运营一家企业,关键在于准确把握并维护好真实的单一数据来源。企业中的很多部门都需要操作数据来证明自身具备盈利能力或者能为企业的整体发展作出贡献。从长远角度看,这种作法明显不利于企业进步,毕竟不同的数据往往会带来完全不同的分析结果。
一旦企业找到真实准确的单一数据来源,Ross认为接下来最关键的工作就是制定一套自上而下的贯彻性策略。“我们需要让员工明白,犯错误是不可避免的。大家犯错误的速度越快,从中学到的东西就越多、而成长的周期自然也就越短。”不过如果企业中有人不愿意承认错误与失败、甚至因此拒绝融入这种文化模式,那么此类策略也彻底失去效力。
当前技术趋势可谓瞬息万变,特别是在过去五年当中,因此希望借助技术手段获取竞争优势的企业必须睁大眼睛、提起戒备。充分利用大数据潜力所需要的绝不仅仅是资金投入,还要求管理者对企业整体以及其中的每个组成部分具备深入了解。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。