HyperAI超神经

Complex-Edit:生成类似CoT的指令用于可控复杂度的图像编辑基准测试

Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
发布日期: 4/23/2025
Complex-Edit:生成类似CoT的指令用于可控复杂度的图像编辑基准测试
摘要

我们引入了Complex-Edit,这是一个全面的基准测试,旨在系统地评估基于指令的图像编辑模型在不同复杂度指令下的表现。为了开发这一基准测试,我们利用GPT-4o自动大规模收集多样化的编辑指令。我们的方法遵循一个结构良好的“编辑链”(Chain-of-Edit)流程:首先独立生成单个原子编辑任务,然后将它们整合形成连贯且复杂的指令。此外,我们还引入了一套度量标准来评估各种编辑性能,并提供了一个基于视觉语言模型(VLM)的自动评估流程,支持大规模评估。我们的基准测试提供了几个值得注意的见解:1) 开源模型相对于专有的闭源模型表现显著较差,且随着指令复杂度的增加,这种性能差距进一步扩大;2) 指令复杂度的提高主要影响模型保留输入图像关键元素和保持整体美学质量的能力;3) 将复杂的指令分解为一系列原子步骤,并以逐步执行的方式进行操作,在多个度量标准下会显著降低性能;4) 简单的“最佳N选一”(Best-of-N)选择策略可以改善直接编辑和逐步顺序方法的结果;5) 我们观察到了“合成数据的诅咒”(curse of synthetic data)现象:当合成数据用于模型训练时,随着编辑指令复杂度的增加,这些模型生成的编辑图像会显得越来越不真实——这一现象同样有趣地表现在最新的GPT-4o输出中。