InfiGUI-R1:将多模态GUI代理从反应式角色提升至深思熟虑推理者
多模态大型语言模型(MLLMs)已经推动了图形用户界面(GUI)代理的发展,显示出在自动化计算设备任务方面的潜力。近期的研究开始探索在GUI任务中的推理能力,并取得了令人鼓舞的结果。然而,许多当前的方法依赖于人工设计的推理模板,这可能导致在复杂GUI环境中推理不够稳健和适应性强。同时,一些现有的代理仍然作为反应式执行者运行,主要依赖于隐式推理,这可能不足以满足需要规划和错误恢复的GUI任务要求。我们认为,要提升这些代理的能力,需要从反应式执行转向基于深思熟虑推理的执行。为了促进这一转变,我们引入了InfiGUI-R1,这是一个通过我们的Actor2Reasoner框架开发的基于MLLMs的GUI代理。Actor2Reasoner框架是一种以推理为中心的两阶段训练方法,旨在逐步将代理从反应式执行者进化为深思熟虑的推理者。第一阶段是推理注入(Reasoning Injection),重点在于建立一个基本的推理器。我们采用空间推理蒸馏(Spatial Reasoning Distillation)技术,通过带有明确推理步骤的轨迹将跨模态空间推理能力从教师模型转移到MLLMs上,使模型能够在生成动作之前将GUI视觉-空间信息与逻辑推理相结合。第二阶段是深思熟虑增强(Deliberation Enhancement),使用强化学习将基本推理器优化为深思熟虑的推理器。这一阶段引入了两种方法:子目标引导(Sub-goal Guidance),奖励模型生成准确的中间子目标;错误恢复场景构建(Error Recovery Scenario Construction),从已识别出容易出错的步骤中创建失败与恢复训练场景。实验结果显示InfiGUI-R1在GUI定位和轨迹任务中表现出色。资源位于https://github.com/Reallm-Labs/InfiGUI-R1。 注:部分术语如“Multimodal Large Language Models (MLLMs)”、“Actor2Reasoner framework”、“Spatial Reasoning Distillation”、“Sub-goal Guidance”、“Error Recovery Scenario Construction”等为专业术语或特定研究中的概念,在中文翻译后保留了英文原文以确保信息完整性和准确性。