摘要

构建图形用户界面（GUI）助手在提升人类工作流生产力方面具有重要潜力。尽管当前大多数智能体仍基于语言模型，依赖于闭源API并利用富含文本信息的元数据（如HTML或可访问性树），但它们在感知UI视觉内容方面仍难以像人类一样进行理解，这凸显了开发GUI视觉智能体的迫切需求。在本研究中，我们提出了一种面向数字世界的视觉-语言-动作联合建模方法，命名为ShowUI，其主要创新包括：（i）基于UI的视觉Token选择机制，通过将截图建模为UI连接图，自适应地识别其中的冗余关系，作为自注意力模块中Token选择的判据，从而有效降低计算开销；（ii）视觉-语言-动作的交错式流式处理机制，能够灵活整合GUI任务中的多样化需求，实现对视觉-动作历史的有效管理，并支持在单张截图上对多轮查询-动作序列进行配对，显著提升训练效率；（iii）通过精心的数据清洗与重采样策略构建的小规模高质量GUI指令遵循数据集，有效缓解了数据类型严重失衡的问题。借助上述组件，ShowUI作为一个仅含20亿参数的轻量级模型，使用256K训练数据，在零样本截图定位任务中达到了75.1%的准确率。其基于UI的Token选择机制在训练过程中进一步减少了33%的冗余视觉Token，使推理速度提升1.4倍。在Web端Mind2Web、移动端AITW以及在线MiniWob环境中的导航实验进一步验证了该模型在推动GUI视觉智能体发展方面的有效性与巨大潜力。相关模型已开源，可访问 https://github.com/showlab/ShowUI。

源 PDF 查看代码