HyperAI超神经

DMM:通过基于蒸馏的模型合并构建多功能图像生成模型

Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
发布日期: 4/23/2025
摘要

文本到图像(T2I)生成模型的成功推动了大量从同一基础模型在各种专业化数据集上微调得到的模型检查点的涌现。这种过度专业化模型的生产带来了新的挑战,即高参数冗余和巨大的存储成本,因此需要开发有效的方法来整合和统一多种强大模型的能力,使其成为一个单一的模型。一种常见的模型合并实践是在参数空间中采用静态线性插值来实现风格混合的目标。然而,这种方法忽略了T2I生成任务的特点,即众多不同的模型覆盖了多种风格,这可能导致合并后的模型出现不兼容和混淆的问题。为了解决这一问题,我们引入了一种可控制风格提示的图像生成流水线,该流水线能够在风格向量的控制下准确生成任意风格的图像。基于这一设计,我们提出了基于得分蒸馏的模型合并范式(DMM),将多个模型压缩成一个多功能的T2I模型。此外,我们在T2I生成背景下重新思考并重新定义了模型合并任务,提出了新的合并目标和评估协议。我们的实验表明,DMM能够紧凑地重组来自多个教师模型的知识,并实现可控的任意风格生成。 注:术语“model checkpoints”通常翻译为“模型检查点”,“score distillation”通常翻译为“得分蒸馏”。这些术语在中文科技文献中已有通用译法,在此翻译中使用了这些通用译法以保持专业性。