Command Palette
Search for a command to run...
Kevin Qinghong LinLinjie LiDifei GaoZhengyuan YangShiwei WuZechen BaiWeixian LeiLijuan WangMike Zheng Shou

摘要
构建图形用户界面(GUI)助手在提升人类工作流生产力方面具有重要潜力。尽管当前大多数智能体仍基于语言模型,依赖于闭源API并利用富含文本信息的元数据(如HTML或可访问性树),但它们在感知UI视觉内容方面仍难以像人类一样进行理解,这凸显了开发GUI视觉智能体的迫切需求。在本研究中,我们提出了一种面向数字世界的视觉-语言-动作联合建模方法,命名为ShowUI,其主要创新包括:(i)基于UI的视觉Token选择机制,通过将截图建模为UI连接图,自适应地识别其中的冗余关系,作为自注意力模块中Token选择的判据,从而有效降低计算开销;(ii)视觉-语言-动作的交错式流式处理机制,能够灵活整合GUI任务中的多样化需求,实现对视觉-动作历史的有效管理,并支持在单张截图上对多轮查询-动作序列进行配对,显著提升训练效率;(iii)通过精心的数据清洗与重采样策略构建的小规模高质量GUI指令遵循数据集,有效缓解了数据类型严重失衡的问题。借助上述组件,ShowUI作为一个仅含20亿参数的轻量级模型,使用256K训练数据,在零样本截图定位任务中达到了75.1%的准确率。其基于UI的Token选择机制在训练过程中进一步减少了33%的冗余视觉Token,使推理速度提升1.4倍。在Web端Mind2Web、移动端AITW以及在线MiniWob环境中的导航实验进一步验证了该模型在推动GUI视觉智能体发展方面的有效性与巨大潜力。相关模型已开源,可访问 https://github.com/showlab/ShowUI。
代码仓库
showlab/showui
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | ShowUI | Accuracy (%): 75.1 |
| natural-language-visual-grounding-on | ShowUI-G | Accuracy (%): 75.0 |