Command Palette

Search for a command to run...

5 个月前

ReCo:区域控制的文本到图像生成

ReCo:区域控制的文本到图像生成

摘要

近日,大规模文本到图像(T2I)模型在生成高保真图像方面展示了令人印象深刻的表现,但在可控性方面仍存在局限,例如无法精确指定特定区域的内容并使用自由形式的文本描述。本文提出了一种有效的技术,以实现T2I生成中的区域控制。我们通过增加一组位置标记来增强T2I模型的输入,这些位置标记表示量化后的空间坐标。每个区域由四个位置标记指定,分别代表左上角和右下角的坐标,随后附带一个开放式的自然语言区域描述。然后,我们使用这种新的输入接口对预训练的T2I模型进行微调。我们的模型被称为ReCo(Region-Controlled T2I),能够实现对任意对象的区域控制,而不仅仅是受限类别集中的对象标签所描述的对象。实证结果显示,ReCo在图像质量方面优于通过位置词汇增强的T2I模型(COCO数据集上的FID:8.82降至7.36,SceneFID:15.54降至6.51),并且对象的位置更加准确,COCO数据集上的区域分类准确率提高了20.40%。此外,我们还证明了ReCo能够更好地控制对象数量、空间关系以及区域属性如颜色/大小等,这得益于自由形式的区域描述。人类评估显示,在PaintSkill数据集上,ReCo在生成具有正确对象数量和空间关系的图像方面的准确性比T2I模型高出19.28%和17.21%。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供