Command Palette

Search for a command to run...

3 个月前

通过想象、搜索与批判实现LLM的自我改进

Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu

通过想象、搜索与批判实现LLM的自我改进

摘要

尽管大型语言模型(LLMs)在各类任务中展现出令人瞩目的能力,但在涉及复杂推理与规划的场景中,其表现仍显不足。近期研究提出了一系列先进的提示工程(prompting)技术,并强调了使用高质量数据进行微调对提升LLM推理能力的必要性。然而,这些方法在本质上受限于数据的可获得性与质量。针对这一挑战,自我修正与自我学习成为具有潜力的解决方案,其通过使LLM能够根据自评估的奖励信号不断优化输出,实现持续学习。然而,LLM在复杂推理与规划任务中进行自我精炼的有效性仍存疑。本文提出AlphaLLM,一种用于LLM自我提升的框架,该框架将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与LLM相结合,构建了一个无需额外标注数据的自我改进闭环。受AlphaGo成功经验的启发,AlphaLLM有效应对了将MCTS与LLM结合以实现自我提升所面临的独特挑战,包括数据稀缺性、语言任务中搜索空间的巨大规模,以及语言任务反馈的主观性。AlphaLLM由三个核心组件构成:提示生成模块、专为语言任务设计的高效MCTS方法,以及一组三重批评者模型,用于提供精准的反馈。在数学推理任务上的实验结果表明,AlphaLLM在不引入额外标注数据的情况下,显著提升了LLM的性能,验证了LLM实现自我改进的可行性与潜力。

代码仓库

yetianjhu/alphallm
官方
pytorch

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kAlphaLLM (with MCTS)
Accuracy: 92
Parameters (Billion): 70
gsm8k-on-gsm8kAlphaLLM (with MCTS)
Accuracy: 92
math-word-problem-solving-on-mathAlphaLLM (with MCTS)
Accuracy: 51

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供