HyperAI超神经

LearnAct: 具备统一演示基准的少样本移动GUI代理

Guangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng
发布日期: 4/23/2025
LearnAct: 具备统一演示基准的少样本移动GUI代理
摘要

移动GUI代理在自动化任务方面显示出潜力,但在多样化的现实场景中面临泛化挑战。传统方法使用大规模数据集进行预训练或微调,在应对移动应用的多样性及用户特定任务时显得力不从心。我们提出通过人类演示来增强移动GUI代理的能力,重点在于提高其在未见过场景中的表现,而不是通过更大规模的数据集追求普遍泛化。为实现这一范式,我们引入了LearnGUI,这是首个专门用于研究基于演示学习的移动GUI代理的综合数据集,包含2,252个离线任务和101个带有高质量人类演示的在线任务。我们进一步开发了LearnAct框架,这是一个复杂的多代理框架,能够自动从演示中提取知识以增强任务完成能力。该框架整合了三个专门的代理:DemoParser用于知识提取,KnowSeeker用于检索相关知识,ActExecutor用于执行增强后的演示任务。实验结果显示,在离线和在线评估中均取得了显著的性能提升。在离线评估中,单次演示即可提升模型性能,将Gemini-1.5-Pro的准确率从19.3%提高到51.7%。在线评估中,我们的框架将UI-TARS-7B-SFT的任务成功率从18.1%提升至32.8%。LearnAct框架和LearnGUI基准确立了基于演示的学习作为更灵活、个性化及可部署的移动GUI代理的一个有前景的方向。(LearnGUI, LearnAct, Gemini-1.5-Pro, UI-TARS-7B-SFT)