扩散二象性
Sahoo, Subham Sekhar ; Deschenaux, Justin ; Gokaslan, Aaron ; Wang, Guanghan ; Chiu, Justin ; Kuleshov, Volodymyr
发布日期: 6/16/2025

摘要
均匀状态离散扩散模型因其固有的自校正能力而有望实现快速文本生成。然而,它们通常在性能上不及自回归模型和掩码扩散模型。在这项工作中,我们通过利用一个关键洞见来缩小这一性能差距:均匀状态扩散过程自然地源自底层的高斯扩散。我们的方法Duo将高斯扩散中的强大技术转移到离散扩散模型中,以改进训练和采样过程。首先,我们引入了一种由高斯过程指导的课程学习策略,通过减少方差将训练速度提高一倍。经过课程学习训练的模型在7个基准测试中的3个上,在零样本困惑度方面超过了自回归模型。其次,我们提出了离散一致性蒸馏(Discrete Consistency Distillation),该算法将连续域的一致性蒸馏技术适应到离散域。这使得扩散语言模型能够在少数步骤内完成生成,采样速度提高了两个数量级。我们在项目页面上提供了代码和模型检查点:http://s-sahoo.github.io/duo