Command Palette

Search for a command to run...

2 个月前

OmniSpatial:面向视觉语言模型的全面空间推理基准

OmniSpatial:面向视觉语言模型的全面空间推理基准

摘要

空间推理是认知心理学中的一个关键方面,同时也是当前视觉-语言模型(VLMs)面临的主要瓶颈。尽管已有大量研究致力于评估或提升VLMs对基本空间关系的理解能力,例如区分左右、远近以及物体计数等,但这些任务仅代表了空间推理的最基本层次。在本工作中,我们提出了OmniSpatial——一个基于认知心理学构建的全面且具有挑战性的空间推理基准。OmniSpatial涵盖四大核心类别:动态推理、复杂空间逻辑、空间交互以及视角转换,共包含50个细粒度子类别。通过互联网数据爬取与精心的手动标注,我们构建了超过1500组问答对。大量实验表明,无论是开源还是闭源的VLMs,以及现有的推理与空间理解模型,在综合空间理解能力方面均表现出显著局限性。我们进一步分析了模型的失败案例,并提出了未来研究的潜在方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OmniSpatial:面向视觉语言模型的全面空间推理基准 | 论文 | HyperAI超神经