6 个月前

监督式微调

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

摘要

我们提出 CoT-Self-Instruct，一种合成数据生成方法。该方法首先引导大语言模型（LLM）基于给定的种子任务，通过基于思维链（Chain-of-Thought, CoT）的方式进行推理与规划，随后生成质量与复杂度相近的新合成提示（prompt），用于大语言模型的训练，并结合自动评估指标对数据进行高质量筛选。在可验证推理任务中，我们的合成数据在 MATH500、AMC23、AIME24 和 GPQA-Diamond 等基准测试上，显著优于现有训练数据集（如 s1k 和 OpenMathReasoning）。在不可验证的指令遵循任务中，该方法在 AlpacaEval 2.0 和 Arena-Hard 两个评测基准上的表现也超越了人类编写或标准自指导（self-instruct）提示的水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

摘要

我们提出 CoT-Self-Instruct，一种合成数据生成方法。该方法首先引导大语言模型（LLM）基于给定的种子任务，通过基于思维链（Chain-of-Thought, CoT）的方式进行推理与规划，随后生成质量与复杂度相近的新合成提示（prompt），用于大语言模型的训练，并结合自动评估指标对数据进行高质量筛选。在可验证推理任务中，我们的合成数据在 MATH500、AMC23、AIME24 和 GPQA-Diamond 等基准测试上，显著优于现有训练数据集（如 s1k 和 OpenMathReasoning）。在不可验证的指令遵循任务中，该方法在 AlpacaEval 2.0 和 Arena-Hard 两个评测基准上的表现也超越了人类编写或标准自指导（self-instruct）提示的水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供