在"2024人工智能表扬日"之际,DXOMARK的图像质量团队深入探讨和研究了由“生成式人工智能技术”驱动的图片编辑,重点关注AI橡皮擦工具。这些工具利用先进的AI和机器学习技术,让用户能够删除照片中不需要的物体或人物,并用AI生成的内容取而代之。作为一项新兴技术,这很有可能极大地改善使用手机进行摄影的用户的后期处理体验。
然而,AI橡皮擦工具仍需要克服几个障碍和挑战,才能真正地发挥其潜力。这些挑战包括:准确识别并移除不需要的元素;理解更广泛的场景背景,从而进行正确替换;以及用逼真的纹理和图案无缝填补空白。
DXOMARK的图像质量团队对AI橡皮擦工具进行了首次评估,选择了几款具有该功能的旗舰设备,其中包括:三星Galaxy S24 Ultra、谷歌 Pixel 8 Pro、OPPO Find X7 Ultra,并在不同场景中进行了测试。
AI橡皮擦工具面临的三大挑战
1-物体分割测试
是否能准确地分割待处理的元素,并且避免遗漏、或者误删画面的其他部分。
主要挑战包括:
• 边缘识别:精准识别主体(即物体或人物)之间边缘
• 遮挡处理:能否妥当地处理画面中重叠或遮挡的部分
AI橡皮擦消除内容:耳机
在这个例子中,三星 S24 Ultra的分割更为精确:它能干净利落地将耳机与背景分离,而谷歌 Pixel 8 Pro则会有一些细节遗留,可以看到对象耳朵上的一些头发伪像。
2-背景理解测试
要为被移除的物体生成自然逼真的替代物体,那么了解整个照片场景的背景信息就显得至关重要。
主要挑战包括:
• 场景语义:识别更广泛的场景元素,以便更明智地替换被移除对象
• 景深估计:尽可能精准估计景深范围,更好地还原和重建背景
AI橡皮擦消除内容:湖边的建筑物体
我们可以看到,当被要求移除前景中的一个大元素并进行场景的还原时,不同的设备所采取的编辑策略截然不同。相比之下,三星 S24 Ultra 所生成的图像与预期的渲染效果相去甚远。
3-修复及纹理合成测试
移除物品后,AI工具需要用纹理和图案来填补缝隙,使其与周围区域完美融合。
主要挑战包括:
• 纹理连续性:确保生成的元素可以在纹理和细节上与原图连续或高度的一致
• 图案复制:是否能很好地复制出草地、天空或者建筑物等等之类的复杂场景
AI橡皮擦消除内容:背景里的女生
总体上看,当我们需要移除室外场景中的人物元素时,所有的机型都能够提供很好的修复效果,OPPO Find X7 Ultra和谷歌 Pixel 8 Pro在连续性上的表现得都不错,且OPPO Find X7 Ultra的表现更加自然。
AI照片编辑的未来
AI后期处理工具正在逐渐成为手机摄影的重要补充功能,并且已经能够稳定表现。对于日常用户来说,它已经可以很好地帮助实现复杂的照片编辑。然而,正如前面的例子所强调的,在物体分割、场景理解和纹理合成等方面仍然存在挑战。随着技术的不断发展,我们期待之后即将推出的产品能够突破这些局限,并进一步增强AI橡皮擦工具的功能和可靠性。
您可以通过我们的DXOMARK Decodes文章了解更多关于AI场景检测的内容。
// 关于DXOMARK
DXOMARK 是一家法国技术公司,是智能手机摄像头、屏幕、音频和电池以及其他消费电子产品(如相机和扬声器)质量评估领域的国际领导者。
作为一家独立的私营公司,DXOMARK 的使命是帮助原始设备制造商开发优质产品,造福最终用户。
为了指导用户进行选择,DXOMARK 在其网站(dxomark.com、.cn 和 .fr )上以评分的形式提供了最大的产品质量评估数据库。
DXOMARK 公司总部位于巴黎附近的布洛涅-比扬古(Boulogne-Billancourt),拥有 120 名员工,其中包括 100 名工程师和技术人员。近 20 年来,这些工程师每年都要在公司内部开发的 16 个最先进的实验室中进行数千次测试。其中 150 多个实验室 100%用于测量和优化消费电子产品的质量,已出售给世界各地的消费电子和科技公司。
好文章,需要你的鼓励
尽管2026年智能手机外观可能变化不大,但内部技术正发生飞跃式进步。AI原生处理器、新型连接技术和先进显示系统正将日常设备转变为具备企业级功能的强大个人平台。这些趋势对企业和消费者同样重要,因为人们携带的手机决定了他们如何访问数据、协作办公、管理工作流程和使用数字服务。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。
《时代》杂志宣布AI及其架构师为2025年度人物,包括扎克伯格、苏姿丰、马斯克等八位科技领袖。编辑认为今年是AI全面潜力显现的关键年份,这项技术加速了医学研究和生产力提升,让不可能变为可能。从企业高管到教师学生,所有人都在思考AI对生活的颠覆性影响。
清华大学研究团队提出3DThinker框架,首次让AI具备类似人类的三维空间想象能力。该系统在推理过程中插入特殊的三维想象符号,不依赖外部工具或大量标注数据,就能从有限的二维图像中构建三维心理模型。在多个空间推理基准测试中,3DThinker相比传统方法性能提升达50-100%,为自动驾驶、机器人导航、虚拟现实等领域的AI应用开辟了新路径。