HyperAI超神经

InstantCharacter:利用可扩展扩散变压器框架个性化任何角色

Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
发布日期: 4/23/2025
摘要

当前基于学习的个性化角色定制方法,主要依赖于U-Net架构,存在泛化能力有限和图像质量受损的问题。与此同时,基于优化的方法需要针对特定对象进行微调,这不可避免地会降低文本可控性。为了解决这些挑战,我们提出了InstantCharacter(即时角色),一个基于基础扩散变换器的可扩展角色定制框架。InstantCharacter展示了三个基本优势:首先,它能够在保持高保真度结果的同时,实现跨不同角色外观、姿态和风格的开放领域个性化定制。其次,该框架引入了一个带有堆叠变换器编码器的可扩展适配器,能够有效处理开放领域的角色特征,并与现代扩散变换器的潜在空间无缝交互。第三,为了有效训练该框架,我们构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织成配对(多视角角色)和非配对(文本-图像组合)子集。这种双重数据结构通过不同的学习路径同时优化了身份一致性与文本编辑性。定性实验表明,InstantCharacter在生成高保真度、文本可控且角色一致的图像方面具有先进能力,并为以角色驱动的图像生成设定了新的基准。我们的源代码可在https://github.com/Tencent/InstantCharacter获取。