Command Palette

Search for a command to run...

4 个月前

VideoLLaMA 3:面向图像与视频理解的前沿多模态基础模型

VideoLLaMA 3:面向图像与视频理解的前沿多模态基础模型

摘要

在本文中,我们提出 VideoLLaMA3,一个更先进的多模态基础模型,用于图像与视频理解。VideoLLaMA3 的核心设计理念是“以视觉为中心”(vision-centric)。这一理念包含两层含义:以视觉为中心的训练范式,以及以视觉为中心的框架设计。我们提出以视觉为中心的训练范式的关键洞察在于:高质量的图像-文本数据对图像和视频理解均至关重要。因此,我们并未致力于构建大规模的视频-文本数据集,而是将重点放在构建大规模、高质量的图像-文本数据集上。VideoLLaMA3 的训练过程包含四个阶段:1)以视觉为中心的对齐阶段,用于预热视觉编码器和投影模块;2)视觉-语言预训练阶段,利用涵盖多种类型(包括场景图像、文档、图表等)的大规模图像-文本数据,以及纯文本数据,联合优化视觉编码器、投影模块和大语言模型(LLM);3)多任务微调阶段,引入图像-文本监督微调(SFT)数据以适配下游任务,并加入视频-文本数据,为视频理解能力打下基础;4)以视频为中心的微调阶段,进一步提升模型在视频理解方面的性能。在框架设计方面,为更有效地捕捉图像中的细粒度信息,我们对预训练的视觉编码器进行了改进,使其能够将不同尺寸的图像编码为数量与图像内容相匹配的视觉标记(vision tokens),而非固定数量的标记。对于视频输入,我们根据帧间相似性减少视觉标记的数量,从而实现更精确、更紧凑的视频表征。得益于以视觉为中心的设计,VideoLLaMA3 在图像与视频理解的多个基准测试中均取得了出色的表现。

代码仓库

damo-nlp-sg/videollama3
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-next-qaVideoLLaMA3(7B)
Accuracy: 84.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供