IV-Bench:多模态大语言模型中基于图像的视频感知与推理基准测试
David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
发布日期: 4/23/2025
摘要
现有的多模态大型语言模型(MLLMs)评估框架主要集中在图像推理或一般的视频理解任务上,很大程度上忽视了图像背景在视频理解中的重要作用。为填补这一空白,我们提出了IV-Bench,这是首个全面评估基于图像的视频感知与推理的基准测试。IV-Bench 包含了967个视频,配以2,585个精心标注的图像-文本查询,涵盖了13项任务(7项感知任务和6项推理任务)以及5个代表性类别。对当前最先进的开源模型(如InternVL2.5、Qwen2.5-VL)和闭源模型(如GPT-4o、Gemini2-Flash和Gemini2-Pro)进行广泛评估后发现,这些模型在基于图像的视频感知与推理方面表现不佳,最高仅能达到28.9%的准确率。进一步分析表明,影响IV-Bench上模型性能的关键因素包括推理模式、帧数和分辨率。此外,通过一种简单的数据合成方法,我们展示了IV-Bench面临的挑战不仅在于训练过程中数据格式的对齐问题。这些发现共同为未来的研究提供了宝贵的见解。我们的代码和数据已发布在https://github.com/multimodal-art-projection/IV-Bench。 原文术语标注: Multimodal Large Language Models (MLLMs) Image-Grounded Video Perception and Reasoning (基于图像的视频感知与推理) InternVL2.5, Qwen2.5-VL (InternVL2.5, Qwen2.5-VL) GPT-4o, Gemini2-Flash and Gemini2-Pro (GPT-4o, Gemini2-Flash 和 Gemini2-Pro)