Command Palette
Search for a command to run...

摘要
随着GPT-4o等实时大型多模态模型(LMMs)的出现,高效多模态模型的研究引起了广泛关注。典型的LMM框架将视觉输入编码为视觉标记(连续表征),并将其与文本指令融合进大语言模型(LLM)的上下文之中。由于大模型具有大规模参数量以及大量上下文标记(主要为视觉标记),导致计算开销巨大。以往提升LMM效率的研究通常聚焦于用更小的模型替代LLM主干网络,却忽视了标记数量这一关键问题。本文提出LLaVA-Mini,一种仅使用极少量视觉标记的高效多模态模型。为在保持视觉信息完整性的前提下实现极高的视觉标记压缩比,我们首先分析了LMM如何理解视觉标记,发现大多数视觉标记仅在LLM主干网络的早期层中起关键作用,其主要功能是将视觉信息融合进文本标记。基于这一发现,LLaVA-Mini引入了模态预融合机制,提前将视觉信息融合进文本标记,从而使得输入LLM主干网络的视觉标记可被极端压缩至单个标记。LLaVA-Mini是一种统一的大型多模态模型,能够以高效方式支持图像、高分辨率图像及视频的理解。在11个基于图像和7个基于视频的基准测试中,LLaVA-Mini仅使用1个视觉标记(相较LLaVA-v1.5的576个)即实现了超越其性能的表现。效率分析表明,LLaVA-Mini可将浮点运算量(FLOPs)降低77%,响应延迟低至40毫秒以内,并可在配备24GB显存的GPU硬件上处理超过10,000帧的视频。
代码仓库
ictnlp/llava-mini
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| zeroshot-video-question-answer-on-activitynet | LLaVA-Mini | Accuracy: 53.5 Confidence Score: 3.5  | 
| zeroshot-video-question-answer-on-msrvtt-qa | LLaVA-Mini | Accuracy: 59.5 Confidence Score: 3.6  | 
| zeroshot-video-question-answer-on-msvd-qa | LLaVA-Mini | Accuracy: 70.9 Confidence Score: 4.0  |