当地时间10月24日-26日,2023骁龙峰会在夏威夷隆重举办。在首日峰会上,高通全新旗舰产品骁龙8 Gen 3正式发布,成为现场的主角。值得一提的是,为能够在手机芯片本地运行AI大模型,骁龙8 Gen 3大幅提高了芯片的AI能力,携手合作伙伴开启了手机生成式AI的新时代。
慧鲤作为高通在人工智能领域重要的合作伙伴现身峰会,在首日的主会场 Keynote环节和次日的移动专场(Mobile Spotlight)中,分别通过现场DEMO展示了生成式AI领域的视野拓展、人像超分功能,以及视觉3D重建能力等最新技术成果。依托骁龙8 Gen 3的能力,将领先的大模型和生成式AI赋能到手机端,为手机用户提供影像拍摄等高质量极致体验。
把大模型塞进手机,重新定义移动智能时代
随着生成式AI技术和应用的发展,实现移动端的AI技术支持,尤其是AI大模型在手机端的落地,显得愈发关键。对手机芯片来说,能够在本地高速运行人工智能大模型,也成为了核心诉求。高通此次全新发布的骁龙8 Gen 3也将AI能力作为重中之重。
在首日的主会场 Keynote环节上,高通公司全球副总裁侯明娟介绍了 8 Gen 3的众多强悍性能,并现场对慧鲤的人工智能Demo进行演示,呈现高通最新一代手机芯片与生成式AI结合的真实效果。
高通与慧鲤深度合作
在此次与高通的深度合作中,慧鲤通过将AI技术与芯片能力进一步深度融合,实现了生成式AI在手机本地完全运行,并在手机端完成高质量的生成和交互。这不仅让AI交互无需再联网上传到云端,也让隐私数据泄露的风险明显降低。更关键的是,这也大大降低了自然语言交互和相关应用的门槛。
显而易见,在共同推进技术进步的路上,慧鲤与高通正在重新定义当下的移动智能时代。
生成式AI赋能视野扩展、人像超分黑科技
生成式AI在移动端的深度应用展示,是此次骁龙峰会的最大亮点。慧鲤也是峰会首日唯一进行现场展示的生成式AI技术企业。全新骁龙8 Gen 3的支持,让手机在智能影像层面实现了“视野扩展”与“人像超分”两大重磅升级。
视野拓展DEMO
其中,视野扩展核心逻辑是通过慧鲤生成式AI技术,在手机端拍摄过程中完成边缘视野的自动拓展。现场展示中,手机端可在数秒内迅速给出大模型生成结果。基于强大的生成式AI,过程中可以进行边界画质的自动优化,摆脱了生成区域画质大幅退化的问题,不仅确保生成内容与原图的合理性和一致性,也让画面更自然协调。
慧鲤视野拓展
人像超分则是针对手机人像拍照的又一项黑科技。基于此功能,在画面拍摄定格后,生成式AI可以在手机端进行人像清晰度的增强和去模糊,并实时呈现画面效果。这项功能可广泛适用于各种复杂拍摄场景,比如成片后分辨率较低、画质压缩受损、画面失焦、运动模糊等,让每一张人像都可实现清晰度还原。
RGBD快、稳、省,释放三维影像力
除了生成式AI领域,慧鲤还与高通在感知视觉领域祭出大招,展示了最新的RGBD深度图补全算法,实现快速、稳定、省电,释放三维视觉的强悍影像力,进一步解锁移动端智能3D建模成像的高级玩法。
通过现场的DEMO展示,全新的RGBD深度图补全可以在16毫秒内完成快速推理,并将生成误差控制在0.1%,同时也实现了更低功耗。
与此同时,RGBD通过深度融合RGB和Spot depth信息,可生成更精确的稠密深度图,赋予手机ToF摄像头更远的距离、更低的功耗、更高的信噪比和更全的深度信息。
这也让骁龙8 Gen 3在ToF拍摄方面具备了三大优势。一是“高保真”,生成式AI大模型让RGBD拍摄更接近真实,可以保持原有硬件sensor的精度;二是“容错强”,拍摄过程中容许少量的对齐误差、离群点和信号噪声;三是“实时性”,利用AI引擎实时低功耗处理,可支持60fps的帧数传输速度,让拍摄所见即所得。
在移动端AI应用浪潮下,慧鲤和高通以智能影像为突破口,让生成式AI在手机端完美落地。同时,配合感知技术的更新迭代,不但展示了AI的智慧魅力,也深度挖掘出了高通新一代先进芯片的性能潜力。面对人工智能领域的应用需求,慧鲤还将继续与高通等厂商携手,加速创新与突破,让生活更便利更安心。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。