Command Palette
Search for a command to run...
Zhiyong WuZhenyu WuFangzhi XuYian WangQiushi SunChengyou JiaKanzhi ChengZichen DingLiheng ChenPaul Pu LiangYu Qiao

摘要
当前构建GUI智能体的大多数努力严重依赖于性能稳健的商用视觉-语言模型(VLMs),如GPT-4o和Gemini Pro Vision。由于开源VLMs在GUI定位(GUI grounding)和分布外(Out-of-Distribution, OOD)场景下的表现与闭源模型存在显著差距,从业者往往不愿采用开源方案。为推动该领域的未来研究,我们开发了OS-Atlas——一个在GUI定位和OOD智能体任务中表现卓越的基础性GUI操作模型,其优势源于数据与建模两方面的创新。我们投入了大量工程资源,构建了一个开源工具集,用于跨多个平台(包括Windows、Linux、macOS、Android及Web)合成GUI定位数据。基于该工具集,我们发布了迄今最大规模的开源跨平台GUI定位语料库,包含超过1300万个GUI元素。该数据集结合模型训练方面的创新,为OS-Atlas理解GUI截图并泛化至未见过的界面提供了坚实基础。在涵盖移动、桌面和Web三大平台的六个基准测试中,OS-Atlas在广泛评估中显著超越了此前的最先进模型。我们的评估还揭示了持续提升和扩展开源VLM智能体能力的宝贵洞见。
代码仓库
njucckevin/seeclick
pytorch
GitHub 中提及
OS-Copilot/OS-Atlas
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| natural-language-visual-grounding-on | OS-Atlas-Base-7B | Accuracy (%): 82.47  | 
| natural-language-visual-grounding-on | OS-Atlas-Base-4B | Accuracy (%): 68.0  |