清华汪玉团队发布VS-Bench:首个全面评估多智能体视觉语言模型能力的测试基准
22 天前
清华大学汪玉教授团队的博士生徐泽来及其合作者提出了一项名为VS-Bench(Visual Strategic Bench)的新测试基准,用于评估视觉语言模型(VLM)在多智能体环境中的推理与决策能力。随着大模型从单轮问答向多步、交互式智能体任务演进,现有测试基准多局限于单智能体或纯文本场景,难以反映真实世界中复杂的多智能体动态。为此,VS-Bench构建了8个涵盖合作、对抗与混合模式的多智能体环境,模拟真实社会互动中的协作与竞争。 研究团队设计了两种互补评估方式:一是离线的策略推理能力,通过模型预测其他智能体下一步动作的准确率来衡量;二是在线的决策能力,以智能体在任务中获得的长期回报为指标。测试覆盖了14个先进VLM,包括推理模型、对话模型和开源模型。 主要发现显示,当前大模型虽具备初步策略推理能力,但预测他人行为仍远未成熟。所有模型均优于随机水平,但表现最佳的o4-mini模型综合准确率仅为47.8%。推理模型整体领先,对话模型与开源模型性能接近。更值得注意的是,尽管推理模型在多数任务中占优,但在某些社会困境类任务中,开源模型反而表现更佳。分析表明,开源模型更倾向合作行为,即便个体能力较弱,也能在集体共赢场景中取得更好结果,而推理模型因更“理性”、倾向于追求个人利益,常导致集体失败。 该研究强调,多智能体环境对模型的Theory of Mind(心智理论)与长期决策能力提出更高要求。未来,团队计划引入人类实验,建立人类基准以更客观评估模型水平;同时拓展更多复杂环境与新型大模型,推动多智能体AI在游戏AI、人机协作等领域的实际应用。VS-Bench有望成为该领域的重要评估标准,助力大模型智能体向更智能、更协作的方向发展。
Related Links
MIT Technology Review