大模型浪潮席卷全球,以其卓越的理解、推理和生成能力,为人工智能领域带来了革命性的突破,对各行各业的运作方式产生深刻影响。在这种背景下,企业开始积极探索大模型的应用方法和场景,尝试将这一前沿技术融入自身的业务中,推进自身应用现代化进程,以应对市场的快速变化和客户需求的升级。
一汽解放在新四化(电动化、智能化、网联化、共享化)的转型挑战中,深度应用大模型技术推进自身现代化进程。3月1日,中国一汽首席科学家朱启昕做客应用现代化产业联盟大咖说直播间,分享了当下大模型技术对一汽解放转型发展的价值与挑战,细数与华为云合作打造的汽车行业专属大模型的方向与项目框架。
大模型浪潮既是传统企业转型的挑战也是机遇
汽车产业正处于新能源转型期,同时又要应对数字化和智能化转型的压力。朱启昕强调,在新四化带来的转型挑战中,大模型的出现改变了人机交互的传统模式,使得用户能够更便捷地通过自然语言与机器进行交流。
朱启昕认为,相较于传统的鼠标键盘操作,这种交互方式无疑为用户带来了更大的便利。大模型不仅能直接提供结果,显著提升工作效率至十倍、百倍,也降低了服务门槛,使普通人能低成本获取专业知识。此外,大模型正逐步取代繁琐的人工作业,并有望在更高层次上辅助决策,成为各行业的得力助手。
朱启昕指出,尽管大模型优势显著,但当下也存在诸多问题。首先是臆想问题,即大模型在回答时可能产生与事实不符的答案。其次,是由于大模型自身局限性,对处理具体化、数字类等问题时会面临时效性和精准性的挑战。第三,便是一直以来备受关注的核心议题“AI价值对齐问题”,即如何让大模型的能力和行为与人的价值观、真实意图和工作原则保持一致,确保人与人工智能协作过程中的安全与精准,在未来相当长的一段时间内,这都将是面临的核心课题。
传统企业拥有丰富的数据积累,在数字化变革中也窥见了前所未有的机遇。朱启昕分享到,自2022年11月30日OpenAI发布ChatGPT以来,一汽解放一直在积极探索大模型的应用方法和场景,深入研究和实践,运用大模型的优势提升企业核心竞争力,助力新四化转型升级。
一汽解放与华为云共谋汽车行业大模型的应用与部署路径
为实现对部分开源大模型进行适应性优化与本地化部署,推动汽车行业的智能化进程,一汽解放与华为云作为战略合作伙伴共同打造了汽车行业专属大模型的具体方向与项目框架,朱启昕表示,目前双方已在多个关键应用项目中取得一定成果。
在文案与专题报告生成方面,大模型能够通过提供提示词和背景信息,快速构建框架,精准把握核心要点,不仅极大提升了一汽解放的创意效率,而且有效降低了对专业外包的依赖和成本。在洞察报告方面,大模型集成的搜索工具能够自动提炼并推送关键摘要,为一汽解放的项目推进提供有力支持。在辅助编程领域,大模型同样表现出色,能够协助编写代码、调试、生成测试用例,并促进开源软件的理解与运用,显著提升了一汽解放的编程效率。在造型创意上,大模型解决了创意枯竭问题,实现高效的方向控制和选择决策,能够大幅缩短一汽解放产品冻结周期,降低成本。在自动驾驶领域,大模型自动标注数据集,能够节省80-90%的时间。在较为复杂的智能客服、智能驾驶员助手和智能员工助手等综合项目中,大模型的应用也取得了一定成效。预计年底前这些功能将分步上线,形成功能完善的整体解决方案。
朱启昕提到,通过与华为云的合作,他深刻认识到大模型在当前时代的广泛应用价值,同时仍有巨大的提升空间。他指出,在数据不足、问题简单、科技计算以及安全私密等场景下,大模型的应用效果并不理想。为了克服这些挑战,一汽解放正探索三维生成问题,期望能够直接生成三维CAS以及结构件这一技术的突破,或将对汽车产业和制造业产生深远影响,未来有望实现人工智能在高级工作中对人类的替代。
“昔日王谢堂前燕,飞入寻常百姓家。”大模型应用发展无疑是具有巨大潜力的,朱启昕借用古诗形象地总结了大模型技术在具身人工智能领域的广泛应用前景,表达自己对大模型应用终将为每个人提供专业化服务的感受。他强调,随着大模型应用水平的不断提高,其认知能力的日益增强将有望弥补人类知识的缺失部分,这将为企业转型提供有力支持,助力企业实现高效运营。一汽解放已做好准备,正通过大模型推动企业的数字化转型和智能化升级,为用户提供更智能、更便捷的出行体验。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。