在"2024人工智能表扬日"之际,DXOMARK的图像质量团队深入探讨和研究了由“生成式人工智能技术”驱动的图片编辑,重点关注AI橡皮擦工具。这些工具利用先进的AI和机器学习技术,让用户能够删除照片中不需要的物体或人物,并用AI生成的内容取而代之。作为一项新兴技术,这很有可能极大地改善使用手机进行摄影的用户的后期处理体验。
然而,AI橡皮擦工具仍需要克服几个障碍和挑战,才能真正地发挥其潜力。这些挑战包括:准确识别并移除不需要的元素;理解更广泛的场景背景,从而进行正确替换;以及用逼真的纹理和图案无缝填补空白。
DXOMARK的图像质量团队对AI橡皮擦工具进行了首次评估,选择了几款具有该功能的旗舰设备,其中包括:三星Galaxy S24 Ultra、谷歌 Pixel 8 Pro、OPPO Find X7 Ultra,并在不同场景中进行了测试。
AI橡皮擦工具面临的三大挑战
1-物体分割测试
是否能准确地分割待处理的元素,并且避免遗漏、或者误删画面的其他部分。
主要挑战包括:
• 边缘识别:精准识别主体(即物体或人物)之间边缘
• 遮挡处理:能否妥当地处理画面中重叠或遮挡的部分
AI橡皮擦消除内容:耳机
在这个例子中,三星 S24 Ultra的分割更为精确:它能干净利落地将耳机与背景分离,而谷歌 Pixel 8 Pro则会有一些细节遗留,可以看到对象耳朵上的一些头发伪像。
2-背景理解测试
要为被移除的物体生成自然逼真的替代物体,那么了解整个照片场景的背景信息就显得至关重要。
主要挑战包括:
• 场景语义:识别更广泛的场景元素,以便更明智地替换被移除对象
• 景深估计:尽可能精准估计景深范围,更好地还原和重建背景
AI橡皮擦消除内容:湖边的建筑物体
我们可以看到,当被要求移除前景中的一个大元素并进行场景的还原时,不同的设备所采取的编辑策略截然不同。相比之下,三星 S24 Ultra 所生成的图像与预期的渲染效果相去甚远。
3-修复及纹理合成测试
移除物品后,AI工具需要用纹理和图案来填补缝隙,使其与周围区域完美融合。
主要挑战包括:
• 纹理连续性:确保生成的元素可以在纹理和细节上与原图连续或高度的一致
• 图案复制:是否能很好地复制出草地、天空或者建筑物等等之类的复杂场景
AI橡皮擦消除内容:背景里的女生
总体上看,当我们需要移除室外场景中的人物元素时,所有的机型都能够提供很好的修复效果,OPPO Find X7 Ultra和谷歌 Pixel 8 Pro在连续性上的表现得都不错,且OPPO Find X7 Ultra的表现更加自然。
AI照片编辑的未来
AI后期处理工具正在逐渐成为手机摄影的重要补充功能,并且已经能够稳定表现。对于日常用户来说,它已经可以很好地帮助实现复杂的照片编辑。然而,正如前面的例子所强调的,在物体分割、场景理解和纹理合成等方面仍然存在挑战。随着技术的不断发展,我们期待之后即将推出的产品能够突破这些局限,并进一步增强AI橡皮擦工具的功能和可靠性。
您可以通过我们的DXOMARK Decodes文章了解更多关于AI场景检测的内容。
// 关于DXOMARK
DXOMARK 是一家法国技术公司,是智能手机摄像头、屏幕、音频和电池以及其他消费电子产品(如相机和扬声器)质量评估领域的国际领导者。
作为一家独立的私营公司,DXOMARK 的使命是帮助原始设备制造商开发优质产品,造福最终用户。
为了指导用户进行选择,DXOMARK 在其网站(dxomark.com、.cn 和 .fr )上以评分的形式提供了最大的产品质量评估数据库。
DXOMARK 公司总部位于巴黎附近的布洛涅-比扬古(Boulogne-Billancourt),拥有 120 名员工,其中包括 100 名工程师和技术人员。近 20 年来,这些工程师每年都要在公司内部开发的 16 个最先进的实验室中进行数千次测试。其中 150 多个实验室 100%用于测量和优化消费电子产品的质量,已出售给世界各地的消费电子和科技公司。
好文章,需要你的鼓励
字节跳动Seed团队提出的虚拟宽度网络(VWN)通过解耦嵌入宽度与主干宽度,在几乎不增加计算成本的情况下显著提升模型表示能力。8倍虚拟宽度扩展使训练效率提升2.5-3.5倍,且发现虚拟宽度因子与损失呈对数线性关系,为大模型效率优化开辟新维度。
亚马逊研究团队通过测试15个AI模型发现,当AI助手记住用户背景信息时,会对相同情感情况产生不同理解,称为"个性化陷阱"。优势社会地位用户获得更准确的情感解释,而弱势群体接受质量较低的理解。这种系统性偏见可能在心理健康、教育等领域放大社会不平等,提醒我们需要在追求AI个性化的同时确保算法公平性。
两家公司在OverdriveAI峰会上分享了AI应用经验。Verizon拥有超过1000个AI模型,用于预测客户呼叫原因和提供个性化服务,将AI推向边缘计算。Collectors则利用AI识别收藏品真伪,将每张卡片的鉴定时间从7分钟缩短至7秒,估值从8.5亿美元增长至43亿美元。
微软等机构联合研发了DOCREWARD文档奖励模型,专门评估文档的结构布局和视觉风格专业度。该模型基于包含11.7万对文档的大规模数据集训练,在人类偏好准确性测试中超越GPT-5达19.4个百分点。研究解决了现有AI工作流忽视文档视觉呈现的问题,为智能文档生成和专业化排版提供了新的技术方案。