8 个月前

计算机视觉

计算机视觉

Zhengyuan Yang Jianfeng Wang Zhe Gan Linjie Li Kevin Lin Chenfei Wu Nan Duan Zicheng Liu Ce Liu Michael Zeng

摘要

近日，大规模文本到图像（T2I）模型在生成高保真图像方面展示了令人印象深刻的表现，但在可控性方面仍存在局限，例如无法精确指定特定区域的内容并使用自由形式的文本描述。本文提出了一种有效的技术，以实现T2I生成中的区域控制。我们通过增加一组位置标记来增强T2I模型的输入，这些位置标记表示量化后的空间坐标。每个区域由四个位置标记指定，分别代表左上角和右下角的坐标，随后附带一个开放式的自然语言区域描述。然后，我们使用这种新的输入接口对预训练的T2I模型进行微调。我们的模型被称为ReCo（Region-Controlled T2I），能够实现对任意对象的区域控制，而不仅仅是受限类别集中的对象标签所描述的对象。实证结果显示，ReCo在图像质量方面优于通过位置词汇增强的T2I模型（COCO数据集上的FID：8.82降至7.36，SceneFID：15.54降至6.51），并且对象的位置更加准确，COCO数据集上的区域分类准确率提高了20.40%。此外，我们还证明了ReCo能够更好地控制对象数量、空间关系以及区域属性如颜色/大小等，这得益于自由形式的区域描述。人类评估显示，在PaintSkill数据集上，ReCo在生成具有正确对象数量和空间关系的图像方面的准确性比T2I模型高出19.28%和17.21%。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Zhengyuan Yang Jianfeng Wang Zhe Gan Linjie Li Kevin Lin Chenfei Wu Nan Duan Zicheng Liu Ce Liu Michael Zeng

摘要

近日，大规模文本到图像（T2I）模型在生成高保真图像方面展示了令人印象深刻的表现，但在可控性方面仍存在局限，例如无法精确指定特定区域的内容并使用自由形式的文本描述。本文提出了一种有效的技术，以实现T2I生成中的区域控制。我们通过增加一组位置标记来增强T2I模型的输入，这些位置标记表示量化后的空间坐标。每个区域由四个位置标记指定，分别代表左上角和右下角的坐标，随后附带一个开放式的自然语言区域描述。然后，我们使用这种新的输入接口对预训练的T2I模型进行微调。我们的模型被称为ReCo（Region-Controlled T2I），能够实现对任意对象的区域控制，而不仅仅是受限类别集中的对象标签所描述的对象。实证结果显示，ReCo在图像质量方面优于通过位置词汇增强的T2I模型（COCO数据集上的FID：8.82降至7.36，SceneFID：15.54降至6.51），并且对象的位置更加准确，COCO数据集上的区域分类准确率提高了20.40%。此外，我们还证明了ReCo能够更好地控制对象数量、空间关系以及区域属性如颜色/大小等，这得益于自由形式的区域描述。人类评估显示，在PaintSkill数据集上，ReCo在生成具有正确对象数量和空间关系的图像方面的准确性比T2I模型高出19.28%和17.21%。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供