3 天前

MultiEdit:在多样且具有挑战性的任务上推进基于指令的图像编辑

Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, et al
MultiEdit:在多样且具有挑战性的任务上推进基于指令的图像编辑
摘要

当前基于指令的图像编辑(Instruction-Based Image Editing, IBIE)方法在处理复杂编辑任务时面临挑战,主要原因在于现有数据集的编辑类型和样本数量均较为有限。此外,传统数据集构建过程中常包含噪声较大的图像-文本配对,这可能引入偏差,限制模型在复杂编辑场景下的表现能力。为解决上述问题,我们提出了MultiEdit,这是一个综合性数据集,包含超过10.7万条高质量的图像编辑样本。该数据集涵盖6项具有挑战性的编辑任务,通过18种非风格迁移类编辑类型与38种风格迁移操作的多样化组合,覆盖了从复杂风格迁移至高阶语义操作(如人物参照编辑、图像内文本编辑)的广泛范围。我们设计了一种新颖的数据集构建流程,利用两个多模态大语言模型(Multimodal Large Language Models, MLLMs),分别生成视觉自适应的编辑指令和生成高保真度的编辑图像。大量实验表明,使用我们提出的MultiEdit-Train数据集对基础开源模型进行微调,可显著提升模型在MultiEdit-Test基准中复杂编辑任务上的性能,同时有效保持其在标准编辑基准上的能力。我们相信,MultiEdit将为推动更丰富、更具挑战性的IBIE研究提供重要资源。本数据集已开放获取,访问地址见本文链接。