HyperAI超神经

WALL-E 2.0:神经符号学习促进全球对齐 提升世界模型基础的LLM代理性能

Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
发布日期: 4/23/2025
摘要

我们能否利用大型语言模型(LLMs)构建准确的世界模型?世界模型如何有助于LLM代理?通常,LLMs的先验知识与指定环境动态之间的差距会限制其作为世界模型的表现。为了解决这一差距,我们提出了一种无需训练的“世界对齐”方法,该方法学习与LLMs互补的环境符号知识。这些符号知识包括动作规则、知识图谱和场景图谱,它们由LLMs从探索轨迹中提取,并编码为可执行代码以规范LLM代理的行为策略。我们进一步通过模型预测控制(MPC)框架提出了一种无需强化学习(RL)、基于模型的代理“WALL-E 2.0”。与经典MPC需要实时进行昂贵的优化不同,我们采用与神经符号世界模型交互的LLM代理作为未来步骤动作的有效前瞻优化器。虽然LLM代理的强大启发式使其在MPC中成为高效的规划者,但其计划动作的质量也得到了对齐的世界模型准确预测的保障。它们共同显著提高了在新环境中学习的效率。在火星(类似《我的世界》)和ALFWorld(具身化室内环境)等开放世界的挑战中,WALL-E 2.0明显优于现有方法,例如,在火星上的成功率比基线高出16.1%-51.6%,得分至少高出61.7%。在ALFWorld中,它仅经过4次迭代就达到了98%的成功率新纪录。