
摘要
随着多模态推理模型的发展,类比《钢铁侠》中贾维斯(Jarvis)的计算机使用智能体(Computer Use Agents, CUAs)正逐渐成为现实。图形用户界面(GUI)定位是CUAs执行实际操作的核心组件,其作用类似于机器人中的机械控制,直接决定了系统的成败。它决定了诸如点击、输入等具体操作,以及相关的参数(如点击坐标的精确位置)。然而,当前的端到端定位模型在ScreenSpot-pro和UI-Vision等具有挑战性的基准测试中,准确率仍低于65%,表明这些模型距离实际部署仍有显著差距——哪怕一次误点击也可能导致不可接受的后果。在本研究中,我们对定位模型的训练过程进行了系统的实证分析,从数据收集到模型训练的各个环节均进行了深入考察。最终,我们提出了Phi-Ground模型系列,在Agent应用场景下,该系列模型在所有五个定位基准测试中,针对参数量小于100亿的模型实现了当前最优(SOTA)性能。在端到端模型设置下,我们的模型在ScreenSpot-pro上取得了43.2的得分,在UI-Vision上达到27.2,依然保持领先水平。我们认为,本文所探讨的各类技术细节,以及我们在实验中积累的成功与失败经验,不仅有助于厘清定位模型的构建路径,也将为其他感知任务提供有益借鉴。项目主页:https://zhangmiaosen2000.github.io/Phi-Ground/