THOUGHTTERMINATOR:推理模型中超思考的基准测试、校准与缓解措施
Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang
发布日期: 4/23/2025
摘要
推理模型在传统语言模型难以处理的复杂任务上展现了出色的表现。然而,许多推理模型都存在过度思考的问题——生成大量不必要的标记,这并不会提高问题的准确性。我们引入了问题难度级别的近似度量方法,并证明了问题难度与最优标记使用量之间存在明确的关系。我们评估了各种推理模型在有效分配最优标记数量方面的校准程度。我们发现,总体而言,推理模型的校准效果较差,尤其是在简单问题上。为了评估在简单问题上的校准效果,我们引入了DUMB500数据集,该数据集包含极其简单的数学、推理、编程和任务问题,并在同一任务领域内同时评估这些简单示例和现有前沿基准中的极其困难示例上的推理模型表现。最后,我们介绍了一种无需训练的黑盒解码技术THOUGHTTERMINATOR,该技术显著提高了推理模型的校准效果。 注:DUMB500 和 THOUGHTTERMINATOR 为专有名词,在中文翻译后保留原文以确保信息完整。