Command Palette
Search for a command to run...

摘要
近日,大规模文本到图像(T2I)模型在生成高保真图像方面展示了令人印象深刻的表现,但在可控性方面仍存在局限,例如无法精确指定特定区域的内容并使用自由形式的文本描述。本文提出了一种有效的技术,以实现T2I生成中的区域控制。我们通过增加一组位置标记来增强T2I模型的输入,这些位置标记表示量化后的空间坐标。每个区域由四个位置标记指定,分别代表左上角和右下角的坐标,随后附带一个开放式的自然语言区域描述。然后,我们使用这种新的输入接口对预训练的T2I模型进行微调。我们的模型被称为ReCo(Region-Controlled T2I),能够实现对任意对象的区域控制,而不仅仅是受限类别集中的对象标签所描述的对象。实证结果显示,ReCo在图像质量方面优于通过位置词汇增强的T2I模型(COCO数据集上的FID:8.82降至7.36,SceneFID:15.54降至6.51),并且对象的位置更加准确,COCO数据集上的区域分类准确率提高了20.40%。此外,我们还证明了ReCo能够更好地控制对象数量、空间关系以及区域属性如颜色/大小等,这得益于自由形式的区域描述。人类评估显示,在PaintSkill数据集上,ReCo在生成具有正确对象数量和空间关系的图像方面的准确性比T2I模型高出19.28%和17.21%。
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| conditional-text-to-image-synthesis-on-coco-1 | ReCo | instance success rate: 0.55 mIoU: 0.49  | 
| layout-to-image-generation-on-layoutbench | ReCo | AP: 7.6  | 
| layout-to-image-generation-on-layoutbench-1 | ReCo | AP: 30.9  | 
| layout-to-image-generation-on-layoutbench-2 | ReCo | AP: 36.4  | 
| layout-to-image-generation-on-layoutbench-3 | ReCo | AP: 24.1  | 
| layout-to-image-generation-on-layoutbench-4 | ReCo | AP: 18.7  |