Back to Headlines

Smol2Operator:赋能计算机操作的后训练图形界面智能体

4 天前

本文介绍了一项名为Smol2Operator的研究工作,展示如何通过两阶段训练策略,将一个原本不具备图形用户界面(GUI)理解能力的小型视觉语言模型(VLM),逐步训练为具备自主操作能力的GUI智能体。该研究以SmolVLM2-2.2B-Instruct为基线模型,目标并非追求最先进性能(SOTA),而是完整呈现从数据处理到模型训练的全流程,推动GUI自动化领域的可复现研究。 研究核心在于构建统一的GUI动作空间。由于不同数据集在函数命名、参数格式和动作表达上存在显著差异,研究团队开发了一套数据转换管道,将多个开源GUI自动化数据集(如AGUVIS-stage1和stage2)统一为标准化格式。例如,将原始的pyautogui.click(x=0.8102, y=0.9463)转化为统一的click(x=0.8102, y=0.9463),并采用归一化坐标(0~1)以适应不同图像分辨率,确保模型训练的稳定性与泛化性。 第一阶段训练聚焦于“感知能力”建立。使用统一后的smolagents/aguvis-stage-1数据集,通过监督微调(SFT),使模型学会从截图中识别并定位UI元素。实验表明,使用1152像素分辨率与归一化坐标时,模型在ScreenSpot-v2基准上的准确率从0%提升至41.27%,显著验证了训练方法的有效性。 第二阶段则转向“认知能力”培养,目标是让模型具备规划与推理能力。基于smolagents/aguvis-stage-2数据集,该阶段引入多轮对话与复杂任务指令,训练模型在理解任务目标后,生成合理的操作序列。结果表明,经过两阶段训练后,模型在ScreenSpot-v2上的准确率进一步提升至61.71%。 研究团队还开源了全部训练代码、数据处理工具、数据集(smolagents/aguvis-stage-1 和 stage-2)以及最终模型(smolagents/SmolVLM2.2B-Instruct-Agentic-GUI),并提供在线演示空间,支持社区复现与进一步研究。值得一提的是,该方法在更小的nanoVLM-460M模型上也取得约58%的准确率,证明其对轻量化模型同样有效。 研究结论强调:高质量、结构化、富含推理信息的数据,是提升GUI智能体性能的关键。未来,结合强化学习(RL)或直接偏好优化(DPO)等方法,有望实现更智能、可自适应的GUI代理,推动AI真正融入日常数字交互。

Related Links