HyperAI超神经
3 days ago

思维链自指导:为推理与非推理任务构建高质量的合成提示

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, et al
思维链自指导:为推理与非推理任务构建高质量的合成提示
摘要

我们提出 CoT-Self-Instruct,一种合成数据生成方法。该方法首先引导大语言模型(LLM)基于给定的种子任务,通过基于思维链(Chain-of-Thought, CoT)的方式进行推理与规划,随后生成质量与复杂度相近的新合成提示(prompt),用于大语言模型的训练,并结合自动评估指标对数据进行高质量筛选。在可验证推理任务中,我们的合成数据在 MATH500、AMC23、AIME24 和 GPQA-Diamond 等基准测试上,显著优于现有训练数据集(如 s1k 和 OpenMathReasoning)。在不可验证的指令遵循任务中,该方法在 AlpacaEval 2.0 和 Arena-Hard 两个评测基准上的表现也超越了人类编写或标准自指导(self-instruct)提示的水平。