HyperAI超神经

QFFT,无问题微调以适应推理

Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
发布日期: 6/18/2025
QFFT,无问题微调以适应推理
摘要

近期在长链思维(Long Chain-of-Thought, CoT)推理模型方面的进展提高了其在复杂任务上的表现,但这些模型存在过度思考的问题,会生成冗余的推理步骤,尤其是在处理简单问题时。本文重新审视了长链和短链CoT模型的推理模式,观察到短链CoT模式能够高效地提供简洁的推理,而长链CoT模式则在短链CoT模式难以应对的挑战性场景中表现出色。为了使模型能够充分利用这两种模式的优势,我们提出了一种无问题微调(Question-Free Fine-Tuning, QFFT)的方法,该方法在训练过程中移除了输入问题,仅从长链CoT响应中学习。这一方法使得模型能够自适应地运用两种推理模式:优先采用短链CoT模式,并仅在必要时激活长链CoT模式。在多个数学数据集上的实验表明,QFFT将平均响应长度减少了超过50%,同时实现了与监督微调(Supervised Fine-Tuning, SFT)相当的性能。此外,在噪声环境、领域外和资源有限的情况下,QFFT的表现优于SFT。