在"2024人工智能表扬日"之际,DXOMARK的图像质量团队深入探讨和研究了由“生成式人工智能技术”驱动的图片编辑,重点关注AI橡皮擦工具。这些工具利用先进的AI和机器学习技术,让用户能够删除照片中不需要的物体或人物,并用AI生成的内容取而代之。作为一项新兴技术,这很有可能极大地改善使用手机进行摄影的用户的后期处理体验。
然而,AI橡皮擦工具仍需要克服几个障碍和挑战,才能真正地发挥其潜力。这些挑战包括:准确识别并移除不需要的元素;理解更广泛的场景背景,从而进行正确替换;以及用逼真的纹理和图案无缝填补空白。
DXOMARK的图像质量团队对AI橡皮擦工具进行了首次评估,选择了几款具有该功能的旗舰设备,其中包括:三星Galaxy S24 Ultra、谷歌 Pixel 8 Pro、OPPO Find X7 Ultra,并在不同场景中进行了测试。
AI橡皮擦工具面临的三大挑战
1-物体分割测试
是否能准确地分割待处理的元素,并且避免遗漏、或者误删画面的其他部分。
主要挑战包括:
• 边缘识别:精准识别主体(即物体或人物)之间边缘
• 遮挡处理:能否妥当地处理画面中重叠或遮挡的部分
AI橡皮擦消除内容:耳机
在这个例子中,三星 S24 Ultra的分割更为精确:它能干净利落地将耳机与背景分离,而谷歌 Pixel 8 Pro则会有一些细节遗留,可以看到对象耳朵上的一些头发伪像。
2-背景理解测试
要为被移除的物体生成自然逼真的替代物体,那么了解整个照片场景的背景信息就显得至关重要。
主要挑战包括:
• 场景语义:识别更广泛的场景元素,以便更明智地替换被移除对象
• 景深估计:尽可能精准估计景深范围,更好地还原和重建背景
AI橡皮擦消除内容:湖边的建筑物体
我们可以看到,当被要求移除前景中的一个大元素并进行场景的还原时,不同的设备所采取的编辑策略截然不同。相比之下,三星 S24 Ultra 所生成的图像与预期的渲染效果相去甚远。
3-修复及纹理合成测试
移除物品后,AI工具需要用纹理和图案来填补缝隙,使其与周围区域完美融合。
主要挑战包括:
• 纹理连续性:确保生成的元素可以在纹理和细节上与原图连续或高度的一致
• 图案复制:是否能很好地复制出草地、天空或者建筑物等等之类的复杂场景
AI橡皮擦消除内容:背景里的女生
总体上看,当我们需要移除室外场景中的人物元素时,所有的机型都能够提供很好的修复效果,OPPO Find X7 Ultra和谷歌 Pixel 8 Pro在连续性上的表现得都不错,且OPPO Find X7 Ultra的表现更加自然。
AI照片编辑的未来
AI后期处理工具正在逐渐成为手机摄影的重要补充功能,并且已经能够稳定表现。对于日常用户来说,它已经可以很好地帮助实现复杂的照片编辑。然而,正如前面的例子所强调的,在物体分割、场景理解和纹理合成等方面仍然存在挑战。随着技术的不断发展,我们期待之后即将推出的产品能够突破这些局限,并进一步增强AI橡皮擦工具的功能和可靠性。
您可以通过我们的DXOMARK Decodes文章了解更多关于AI场景检测的内容。
// 关于DXOMARK
DXOMARK 是一家法国技术公司,是智能手机摄像头、屏幕、音频和电池以及其他消费电子产品(如相机和扬声器)质量评估领域的国际领导者。
作为一家独立的私营公司,DXOMARK 的使命是帮助原始设备制造商开发优质产品,造福最终用户。
为了指导用户进行选择,DXOMARK 在其网站(dxomark.com、.cn 和 .fr )上以评分的形式提供了最大的产品质量评估数据库。
DXOMARK 公司总部位于巴黎附近的布洛涅-比扬古(Boulogne-Billancourt),拥有 120 名员工,其中包括 100 名工程师和技术人员。近 20 年来,这些工程师每年都要在公司内部开发的 16 个最先进的实验室中进行数千次测试。其中 150 多个实验室 100%用于测量和优化消费电子产品的质量,已出售给世界各地的消费电子和科技公司。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。