
摘要
具身导航要求智能体在复杂的三维环境中实现感知、推理与行动的深度融合,以实现稳健的交互。现有方法往往面临推理过程不连贯、不稳定的问题,这阻碍了其在多样化环境中的泛化能力,同时难以在长时程语义推理与低延迟控制之间取得平衡,从而影响实时导航的性能。为应对这些挑战,我们提出Nav-R1——一种统一具身环境推理的具身基础模型。我们首先构建了Nav-CoT-110K,一个大规模的、分步式的思维链(Chain-of-Thought, CoT)数据集,专为具身任务设计,支持结构化推理的冷启动初始化。在此基础上,我们设计了一种基于GRPO的强化学习框架,引入三种互补的奖励机制:格式奖励、理解奖励与导航奖励,以提升推理结构的规范性、语义的环境锚定性以及路径的准确性。此外,我们提出“快在慢中”(Fast-in-Slow)的推理范式,将深思熟虑的语义推理与低延迟的反应式控制解耦,实现高效且连贯的导航。在多个具身人工智能基准测试中的大量实验表明,Nav-R1在推理与导航性能上持续优于强基线方法,平均提升超过8%。在移动机器人上的真实世界部署进一步验证了其在有限机载资源下的鲁棒性。代码:this https URL。网站:this https URL。