Command Palette

Search for a command to run...

4 个月前

ShowUI:面向GUI视觉Agent的统一视觉-语言-动作模型

ShowUI:面向GUI视觉Agent的统一视觉-语言-动作模型

摘要

构建图形用户界面(GUI)助手在提升人类工作流生产力方面具有重要潜力。尽管当前大多数智能体仍基于语言模型,依赖于闭源API并利用富含文本信息的元数据(如HTML或可访问性树),但它们在感知UI视觉内容方面仍难以像人类一样进行理解,这凸显了开发GUI视觉智能体的迫切需求。在本研究中,我们提出了一种面向数字世界的视觉-语言-动作联合建模方法,命名为ShowUI,其主要创新包括:(i)基于UI的视觉Token选择机制,通过将截图建模为UI连接图,自适应地识别其中的冗余关系,作为自注意力模块中Token选择的判据,从而有效降低计算开销;(ii)视觉-语言-动作的交错式流式处理机制,能够灵活整合GUI任务中的多样化需求,实现对视觉-动作历史的有效管理,并支持在单张截图上对多轮查询-动作序列进行配对,显著提升训练效率;(iii)通过精心的数据清洗与重采样策略构建的小规模高质量GUI指令遵循数据集,有效缓解了数据类型严重失衡的问题。借助上述组件,ShowUI作为一个仅含20亿参数的轻量级模型,使用256K训练数据,在零样本截图定位任务中达到了75.1%的准确率。其基于UI的Token选择机制在训练过程中进一步减少了33%的冗余视觉Token,使推理速度提升1.4倍。在Web端Mind2Web、移动端AITW以及在线MiniWob环境中的导航实验进一步验证了该模型在推动GUI视觉智能体发展方面的有效性与巨大潜力。相关模型已开源,可访问 https://github.com/showlab/ShowUI。

代码仓库

showlab/showui
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-visual-grounding-onShowUI
Accuracy (%): 75.1
natural-language-visual-grounding-onShowUI-G
Accuracy (%): 75.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供