12 天前

PromptCoT 2.0：面向大型语言模型推理的提示合成扩展

Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong

摘要

大型语言模型（LLMs）正从对话系统演变为在奥数数学和编程竞赛等任务中具备强大推理能力的工具。尽管参数规模扩大和推理时计算资源的增加推动了这一进展，但一个关键瓶颈在于高质量训练题目的缺乏：人工精心构建的数据集成本高昂且数量有限，而现有的合成语料库往往过于简单或范围狭窄。PromptCoT 1.0 的研究表明，将推理过程（rationales）注入提示生成过程中可显著提升题目的难度。在此基础上，我们提出了 PromptCoT 2.0——一种可扩展的框架，该框架用期望最大化（EM）迭代循环替代了人工设计的启发式规则，通过迭代优化推理过程来引导提示的构建。该方法生成的问题不仅更具挑战性，且在多样性上也优于以往的语料库。这些合成提示支持两种后续训练范式：（1）自对弈（Self-Play），即强模型通过可验证的反馈自主提升，无需依赖更强的教师模型；（2）监督微调（Supervised Fine-Tuning, SFT），即弱模型从教师模型提炼出的推理轨迹中学习。大量实验验证了该方法的有效性。在自对弈设置中，将 PromptCoT 2.0 应用于 Qwen3-30B-A3B-Thinking-2507 模型，在 30B 参数规模下取得了新的最先进性能：在 AIME 2024/2025 上分别提升 +4.4、+4.8 和 +5.3，在 HMMT 2025 上提升 +6.1 和 +5.0，在 LiveCodeBench v5/v6 上分别提升 +6.1 和 +5.0，在 Codeforces 上提升 +35 Elo。在 SFT 设置中，仅使用合成提示对 Qwen2.5-7B-Instruct 进行训练，其准确率分别达到 73.1（AIME 2024）、65.6（AIME 2025）和 53.4（LiveCodeBench v5），超越了在人工或混合数据上训练的模型。进一步分析表明，PromptCoT 2.0 生成的问题在本质难度和分布特性上均显著区别于现有数据集。这些结果确立了提示生成作为提升推理能力的新维度，并将 PromptCoT 2.0 定位为未来开源模型可扩展发展的坚实基础。相关实现代码已开源，详见此 https URL。