在6月21日的华为开发者大会(HDC 2024)上,华为云发布了盘古大模型5.0,其创新的多模态生成能力,可以为自动驾驶领域提供更高质量的数据支持。
华为常务董事、华为云CEO张平安表示,盘古5.0通过创新的可控时空生成,大规模的生成和实际场景相一致的驾驶视频数据,有机会重塑自动驾驶的开发。
华为云盘古大模型5.0可控时空生成技术(STCG),赋予了模型理解并遵循物理规律的能力,这意味着,生成的视频不仅在视觉上逼真,更重要的是在车辆行为、环境互动等方面与现实情况保持高度同步。例如,车辆在不同摄像头视角间的平滑过渡,以及在不同天气和光照条件下行驶的自然表现,都显示了模型对空间和时间维度精准把握的能力。
通过盘古大模型生成的六摄像头视角视频,自动驾驶系统可以直接获取到全方位、高仿真度的训练素材。这些视频涵盖了从无车街道到复杂多车交互的不同场景,甚至包括不同气候条件下的行车情况,极大地丰富了训练数据集的多样性。尤为值得注意的是,模型在生成雨天视频时,还能细腻地模拟出车辆尾灯因光线昏暗而开启的细节,体现了其对真实世界复杂规律的深刻理解和学习能力。
张平安表示:未来,盘古的多模态生成还会支持更多的场景,更好的为自动驾驶服务。
好文章,需要你的鼓励
CloudBees首席执行官Anuj Kapur表示,AI可能重新测试DevOps的基础假设,但警告不要为追求效率而创建黑盒代码。他指出,一些因担心错失机会而匆忙采用AI生成代码的客户正开始放缓步伐,变得更加谨慎。Kapur认为,将整代软件外包给提示工程将创建非人类生成的黑盒代码,虽然效率高但质量、测试覆盖率和漏洞问题值得担忧。
韩国汉阳大学联合高通AI研究院开发出InfiniPot-V框架,解决了移动设备处理长视频时的内存限制问题。该技术通过时间冗余消除和语义重要性保留两种策略,将存储需求压缩至原来的12%,同时保持高准确性,让手机和AR眼镜也能实时理解超长视频内容。
数据网络安全公司Rubrik宣布收购AI初创公司Predibase,交易金额在1-5亿美元之间。Predibase专注于帮助企业训练和微调开源AI模型。此次收购将使Rubrik用户能够通过Amazon Bedrock、Azure OpenAI和Google Agentspace等平台加速构建AI智能体。这是继Salesforce、Snowflake等公司之后,又一家通过收购来增强AI智能体技术栈的企业。
纽约大学研究团队通过INT-ACT测试套件全面评估了当前先进的视觉-语言-动作机器人模型,发现了一个普遍存在的"意图-行动差距"问题:机器人能够正确理解任务和识别物体,但在实际动作执行时频频失败。研究还揭示了端到端训练会损害原有语言理解能力,以及多模态挑战下的推理脆弱性,为未来机器人技术发展提供了重要指导。