Command Palette
Search for a command to run...

摘要
大型推理模型(LRMs)如 OpenAI-o1 通过大规模强化学习展现了令人瞩目的多步推理能力。然而,其延伸的推理过程常常因知识不足而产生频繁的不确定性,进而导致潜在错误。为解决这一局限,我们提出 Search-o1,一个通过智能体式检索增强生成(RAG)机制和“在文档中推理”(Reason-in-Documents)模块来提升 LRMs 性能的框架。Search-o1 将智能体式搜索工作流集成到推理过程中,使模型在遇到知识不确定点时能够动态检索外部知识。此外,由于检索到的文档通常内容冗长,我们设计了独立的“在文档中推理”模块,对检索信息进行深度分析,再将其注入推理链,从而有效降低噪声,保持推理过程的连贯性。在科学、数学和编程等复杂推理任务,以及六个开放域问答(QA)基准测试上的大量实验表明,Search-o1 表现优异。该方法显著提升了 LRMs 在复杂推理任务中的可信度与适用性,为构建更可靠、更通用的智能系统铺平了道路。代码已开源,地址为:https://github.com/sunnynexus/Search-o1。
代码仓库
sunnynexus/search-o1
官方
GitHub 中提及
terrierteam/pyterrier_rag
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| code-generation-on-livecodebench | Search-o1 | Acc: 33  | 
| mathematical-reasoning-on-aime24 | Search-o1 | Acc: 56.7  | 
| mathematical-reasoning-on-math500 | Search-o1 | Acc: 86.4  | 
| question-answering-on-natural-questions | Search-o1 | EM: 34  | 
| question-answering-on-triviaqa | Search-o1 | F1: 74.1  |