6 个月前

摘要

Score Identity Distillation（SiD）是一种无需训练数据的图像生成方法，通过仅利用预训练的扩散模型即实现了当前最优（SOTA）性能。然而，其最终生成效果受限于预训练模型在扩散过程不同阶段对真实数据梯度（score）的建模准确性。本文提出SiDA（SiD with Adversarial Loss），通过引入真实图像与对抗损失，不仅显著提升了生成质量，还增强了蒸馏效率。SiDA创新性地将生成器的得分网络中的编码器用作判别器，使其能够有效区分真实图像与SiD生成的图像。对抗损失在每个GPU批次内进行批量归一化处理，随后与原始SiD损失相结合。该设计将每批次图像的平均“伪造程度”信息融入基于像素的SiD损失中，从而实现单步生成器的高效蒸馏。相较于原始SiD方法，SiDA在从零开始蒸馏时收敛速度显著加快，并在基于预蒸馏SiD生成器进行微调时迅速超越原始模型性能。该单步对抗蒸馏方法在蒸馏EDM扩散模型方面树立了新基准，在ImageNet 64×64数据集上取得了1.110的FID分数。在蒸馏在ImageNet 512×512上训练的EDM2模型时，SiDA的表现甚至超越了最大的教师模型EDM2-XXL——后者采用分类器自由引导（CFG）与63步生成，FID为1.81。相比之下，SiDA在无需CFG且仅需单步生成的情况下，分别实现了XS、S、M、L、XL、XXL版本的FID分数：2.156、1.669、1.488、1.413、1.379和1.366，全面优于现有方法，且在所有模型规模上均展现出显著提升。上述结果充分证明了SiDA在生成质量与蒸馏效率方面的卓越性能。相关代码已开源，地址为：https://github.com/mingyuanzhou/SiD/tree/sida。

源 PDF