Command Palette

Search for a command to run...

3 个月前

大语言模型是视频问答中的时序与因果推理者

Dohwan Ko Ji Soo Lee Wooyoung Kang Byungseok Roh Hyunwoo J. Kim

大语言模型是视频问答中的时序与因果推理者

摘要

大规模语言模型(Large Language Models, LLMs)在众多自然语言理解与生成任务中表现出色。我们观察到,LLMs 在视频问答(Video Question Answering, VideoQA)任务中能够有效利用语言捷径(linguistic shortcuts)进行时间与因果推理。然而,这类先验知识往往导致模型在 VideoQA 任务中表现欠佳,因为模型过度依赖问题本身,即产生语言偏差(linguistic bias),而忽视了视觉内容信息。这种现象也被称为“脱离语境的猜测”(ungrounded guesses)或“幻觉”(hallucinations)。为在充分利用 LLM 先验知识的同时缓解上述问题,我们提出一种新颖的框架——Flipped-VQA。该框架通过将输入源对与目标标签进行反转,促使模型学习所有 $\langle$视频 V, 问题 Q, 答案 A$\rangle$ 三元组之间的复杂关系:具体而言,模型需分别基于 VQ、VA 和 QA 三类配对,预测 A、Q 和 V。这种双向建模机制有助于增强模型对多模态信息的联合理解,降低对问题的过度依赖。本文中,我们将 Flipped-VQA 框架应用于 LLaMA 模型,构建了 LLaMA-VQA,并在五个具有挑战性的 VideoQA 基准测试上均取得了优于现有基于 LLM 与非 LLM 方法的性能表现。此外,Flipped-VQA 具有良好的通用性,可适配多种主流 LLM(如 OPT 和 GPT-J),并在各类模型上均实现性能稳定提升。实验结果表明,Flipped-VQA 不仅增强了对语言捷径的有效利用,还显著缓解了因语言偏差导致的错误答案问题,使模型更关注视觉内容,提升推理的可靠性。代码已开源,访问地址为:https://github.com/mlvlab/Flipped-VQA。

代码仓库

mlvlab/Flipped-VQA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-dramaqaLLaMA-VQA
Accuracy: 84.1
video-question-answering-on-next-qaLLaMA-VQA (33B)
Accuracy: 75.5
video-question-answering-on-situatedLLaMA-VQA
Average Accuracy: 65.4
video-question-answering-on-tvqaLLaMA-VQA
Accuracy: 82.2
video-question-answering-on-vlepLLaMA-VQA
Accuracy: 71.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供