Command Palette

Search for a command to run...

5 个月前

DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习与蒙特卡洛树搜索

DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习与蒙特卡洛树搜索

摘要

我们提出 DeepSeek-Prover-V1.5,这是一个专为 Lean 4 环境下定理证明设计的开源语言模型,通过优化训练与推理过程,对 DeepSeek-Prover-V1 进行了全面升级。该模型基于 DeepSeekMath-Base 进行预训练,并在形式化数学语言方面具有专长,随后利用从 DeepSeek-Prover-V1 派生的增强型形式化定理证明数据集,通过监督微调进一步优化。在此基础上,我们采用基于证明助手反馈的强化学习(Reinforcement Learning from Proof Assistant Feedback, RLPAF)方法进行持续精调。与 DeepSeek-Prover-V1 仅采用单次全证明生成的策略不同,我们提出 RMaxTS——一种基于内在奖励驱动探索策略的蒙特卡洛树搜索(Monte-Carlo Tree Search)变体,能够生成多样化的证明路径。实验结果表明,DeepSeek-Prover-V1.5 在性能上显著超越 DeepSeek-Prover-V1,在高中水平的 miniF2F 基准测试集上达到 63.5% 的新最优成绩,同时在本科水平的 ProofNet 基准测试集上也取得 25.3% 的新高分,刷新了当前最先进水平。

代码仓库

deepseek-ai/deepseek-prover-v1.5
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
automated-theorem-proving-on-minif2f-testDeepSeek-Prover-V1.5
ITP: Lean
Pass@32: 50.0
Pass@64: 50.7
cumulative: 63.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供