在6月21日的华为开发者大会(HDC 2024)上,华为云发布了盘古大模型5.0,其创新的多模态生成能力,可以为自动驾驶领域提供更高质量的数据支持。
华为常务董事、华为云CEO张平安表示,盘古5.0通过创新的可控时空生成,大规模的生成和实际场景相一致的驾驶视频数据,有机会重塑自动驾驶的开发。
华为云盘古大模型5.0可控时空生成技术(STCG),赋予了模型理解并遵循物理规律的能力,这意味着,生成的视频不仅在视觉上逼真,更重要的是在车辆行为、环境互动等方面与现实情况保持高度同步。例如,车辆在不同摄像头视角间的平滑过渡,以及在不同天气和光照条件下行驶的自然表现,都显示了模型对空间和时间维度精准把握的能力。
通过盘古大模型生成的六摄像头视角视频,自动驾驶系统可以直接获取到全方位、高仿真度的训练素材。这些视频涵盖了从无车街道到复杂多车交互的不同场景,甚至包括不同气候条件下的行车情况,极大地丰富了训练数据集的多样性。尤为值得注意的是,模型在生成雨天视频时,还能细腻地模拟出车辆尾灯因光线昏暗而开启的细节,体现了其对真实世界复杂规律的深刻理解和学习能力。
张平安表示:未来,盘古的多模态生成还会支持更多的场景,更好的为自动驾驶服务。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。