11月28日,在“WISE2023 商业之王大会”上,百度集团资深副总裁、百度移动生态事业群组总经理何俊杰发表了《AI流经之地》为题的演讲,阐释在大模型带来全行业大变革的一年中,百度移动生态的思考和实践。何俊杰表示,站在当下,每一家企业,每一个组织,都在思考如何拥抱新时代。“对于所有企业来说,大模型有没有让你的成本变低,收入变得更高,增速更快?这就是问题本质”。他认为,繁荣的AI原生应用生态,将成为企业创新增长的“弹簧板”,大模型也将在这个时代展现它的“摩尔定律”,带领行业进入下一个指数级增长的新周期。
从搜索到文库,大模型全面重构百度移动生态
从ChatGPT爆火到现在,国内外大大小小几百家公司都在训练自己的大模型。对此,何俊杰表示,“AI原生时代,我们需要100万量级的AI原生应用,但是不需要100个大模型。” 百度移动生态正是百度集团在AI原生重构这张棋盘上的主要练兵场和AI原生应用落地第一站。
过去半年,百度移动生态基于文心一言和文心大模型不断进化的综合能力,全面重构百度的应用生态与服务,打造了多元的AI原生应用矩阵。“不是整合,不是接入,而是全面‘重做一遍’”何俊杰表示。包括全新的文心一言App、百度搜索、百度文库、百度输入法、百度贴吧等用户级的产品,百度轻舸、擎舵等企业级平台和工具,都具备了全新的智能体验。
其中,搜索业务作为百度的起点,是重构的重中之重,也备受关注。重构后的新搜索具有极致满足、推荐激发和多轮交互三个特点,当用户提出一个问题时,新搜索不再是提供一堆链接,而是通过对内容的理解,生成文字、图片、动态图表等多模态的答案,让用户一步获得满足。据何俊杰介绍,目前每天已经有超过3亿次的百度搜索需求,是被生成式搜索满足。
百度文库也是AI原生思维改造的代表。百度文库颠覆了过去几十年对办公软件的使用习惯,完成了从“内容工具”向“生产力工具”的进化,并凭借其PPT智能生成、文档智能生成、智能编辑等大模型能力,累计吸引使用用户3000万,新功能累计使用次数破2亿,付费用户显著提升。
近期,百度发布文心4.0版本,这是迄今为止最强大的文心大模型,在理解、生成、逻辑和记忆四大能力上,都有明显提升。文心4.0也进一步提升百度AI原生应用的能力,推进应用落地。
从1到N,大模型带来“增量格局”
何俊杰认为,当下增长正在离大模型最近的地方发生,大模型所催生的应用生态繁荣将率先带来行业从“存量格局”到“增量格局的”发展新机遇。百度也正在持续构建“1+N”的大模型生态,从大模型的“1”,到AI原生应用的“N”,不断扩大外延。
以百度移动生态为例,旗下拥有600万创作者生态、数百万的商业客户生态,以及面向开发者的插件生态。这些生态用户、客户、伙伴,都正在从快速发展的“AI原生应用生态”中获益。
其中,大模型插件平台“灵境矩阵”可以将百度的大模型能力与流量池赋能给开发者。目前,插件生态已经收到2.7万个开发者的注册申请,覆盖了20多个垂直领域。
根据百度最新发布的第三季度财报,营收和净利润两项关键指标均超越市场预期,移动生态表现稳健。其中,广告商对AI新功能反馈积极,采用AI新功能的广告商在第三季度平均实现了高个位数的转化率增长。在财报电话会上,百度创始人、董事长兼首席执行官李彦宏表示,百度正在用文心大模型重构广告系统,包括生成式创意、生成式定向等服务,这些举措有望在四季度带来数亿元人民币的增量收入。可以说,重构后的AI原生应用也将成为持续创新增长的“弹簧板”。
未来,百度也将更多的创新精力与资源投入到多元应用生态的构建。与行业一起,推动大模型从1到N,构建起繁荣的AI生态。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。