HyperAI超神经

通过强化压缩视频立方体实现高效视频理解的线性混合模型

Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
发布日期: 4/23/2025
摘要

大型多模态模型(LMMs)对视频帧进行统一感知,这导致了具有内在不同时间信息密度的视频在计算上效率低下。本文介绍了一种名为Quicksviewer的新感知范式的LMM,该模型使用Gumbel Softmax将非均匀密度的视频分割成不同大小的立方体,然后对每个立方体进行统一重采样以实现高效的视频理解。这种简单直观的方法能够根据视频的时间密度动态在线压缩视频,显著减少了时空冗余(整体压缩率达到了45倍),同时支持具有大感受野的有效训练。我们通过三个逐步阶段对模型进行训练,每个阶段都包含了平均长度为420秒/每秒1帧的较长视频,这得益于其高效的感知能力。仅使用80万总视频-文本样本进行训练,我们的模型在准确性上比采用固定分割策略的直接基线模型高出最多8.72个百分点,展示了其在性能上的有效性。在Video-MME数据集上,Quicksviewer使用仅占基线模型每帧所需令牌5%的资源,在适度的序列长度下达到了最先进的水平(SOTA)。通过这一范式,增加输入帧的数量揭示了模型能力的明显幂律关系。实验还验证了立方体网络生成的片段有助于分析视频中的连续事件。 注:原文中的“SOTA”是“State-of-the-Art”的缩写,意为“最先进的”。