在"2024人工智能表扬日"之际,DXOMARK的图像质量团队深入探讨和研究了由“生成式人工智能技术”驱动的图片编辑,重点关注AI橡皮擦工具。这些工具利用先进的AI和机器学习技术,让用户能够删除照片中不需要的物体或人物,并用AI生成的内容取而代之。作为一项新兴技术,这很有可能极大地改善使用手机进行摄影的用户的后期处理体验。
然而,AI橡皮擦工具仍需要克服几个障碍和挑战,才能真正地发挥其潜力。这些挑战包括:准确识别并移除不需要的元素;理解更广泛的场景背景,从而进行正确替换;以及用逼真的纹理和图案无缝填补空白。
DXOMARK的图像质量团队对AI橡皮擦工具进行了首次评估,选择了几款具有该功能的旗舰设备,其中包括:三星Galaxy S24 Ultra、谷歌 Pixel 8 Pro、OPPO Find X7 Ultra,并在不同场景中进行了测试。
AI橡皮擦工具面临的三大挑战
1-物体分割测试
是否能准确地分割待处理的元素,并且避免遗漏、或者误删画面的其他部分。
主要挑战包括:
• 边缘识别:精准识别主体(即物体或人物)之间边缘
• 遮挡处理:能否妥当地处理画面中重叠或遮挡的部分
AI橡皮擦消除内容:耳机
在这个例子中,三星 S24 Ultra的分割更为精确:它能干净利落地将耳机与背景分离,而谷歌 Pixel 8 Pro则会有一些细节遗留,可以看到对象耳朵上的一些头发伪像。
2-背景理解测试
要为被移除的物体生成自然逼真的替代物体,那么了解整个照片场景的背景信息就显得至关重要。
主要挑战包括:
• 场景语义:识别更广泛的场景元素,以便更明智地替换被移除对象
• 景深估计:尽可能精准估计景深范围,更好地还原和重建背景
AI橡皮擦消除内容:湖边的建筑物体
我们可以看到,当被要求移除前景中的一个大元素并进行场景的还原时,不同的设备所采取的编辑策略截然不同。相比之下,三星 S24 Ultra 所生成的图像与预期的渲染效果相去甚远。
3-修复及纹理合成测试
移除物品后,AI工具需要用纹理和图案来填补缝隙,使其与周围区域完美融合。
主要挑战包括:
• 纹理连续性:确保生成的元素可以在纹理和细节上与原图连续或高度的一致
• 图案复制:是否能很好地复制出草地、天空或者建筑物等等之类的复杂场景
AI橡皮擦消除内容:背景里的女生
总体上看,当我们需要移除室外场景中的人物元素时,所有的机型都能够提供很好的修复效果,OPPO Find X7 Ultra和谷歌 Pixel 8 Pro在连续性上的表现得都不错,且OPPO Find X7 Ultra的表现更加自然。
AI照片编辑的未来
AI后期处理工具正在逐渐成为手机摄影的重要补充功能,并且已经能够稳定表现。对于日常用户来说,它已经可以很好地帮助实现复杂的照片编辑。然而,正如前面的例子所强调的,在物体分割、场景理解和纹理合成等方面仍然存在挑战。随着技术的不断发展,我们期待之后即将推出的产品能够突破这些局限,并进一步增强AI橡皮擦工具的功能和可靠性。
您可以通过我们的DXOMARK Decodes文章了解更多关于AI场景检测的内容。
// 关于DXOMARK
DXOMARK 是一家法国技术公司,是智能手机摄像头、屏幕、音频和电池以及其他消费电子产品(如相机和扬声器)质量评估领域的国际领导者。
作为一家独立的私营公司,DXOMARK 的使命是帮助原始设备制造商开发优质产品,造福最终用户。
为了指导用户进行选择,DXOMARK 在其网站(dxomark.com、.cn 和 .fr )上以评分的形式提供了最大的产品质量评估数据库。
DXOMARK 公司总部位于巴黎附近的布洛涅-比扬古(Boulogne-Billancourt),拥有 120 名员工,其中包括 100 名工程师和技术人员。近 20 年来,这些工程师每年都要在公司内部开发的 16 个最先进的实验室中进行数千次测试。其中 150 多个实验室 100%用于测量和优化消费电子产品的质量,已出售给世界各地的消费电子和科技公司。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。