Command Palette

Search for a command to run...

3 个月前

基于预训练文本到视频扩散模型的指代视频目标分割研究

Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua

基于预训练文本到视频扩散模型的指代视频目标分割研究

摘要

本文探讨了基于预训练文本到视频(Text-to-Video, T2V)扩散模型所生成的视觉表征在视频理解任务中的应用潜力。我们提出假设:从预训练生成式T2V模型中学习到的潜在表示,蕴含丰富的语义信息并具备连贯的时间对应关系,因而天然地有利于视频理解任务的实现。该假设通过经典的指代视频目标分割(Referring Video Object Segmentation, R-VOS)任务得到了验证。为此,我们提出一种新型框架——“VD-IT”,其基于一个固定的预训练T2V模型,并专门设计了若干组件以适配视频理解需求。具体而言,VD-IT将文本信息作为条件输入,确保在时间维度上保持语义一致性,从而实现精确的时序实例匹配;同时,引入图像令牌(image tokens)作为补充的文本输入,进一步丰富特征表达,以生成更加精细且具有层次感的分割掩码。此外,不同于传统方法中采用标准高斯噪声,我们设计了一个额外的噪声预测模块,用于预测特定于视频的噪声,从而有效保留特征保真度,显著提升分割性能。通过大量实验,我们意外发现:固定不动的生成式T2V扩散模型,相较于通常用于视频理解任务的判别式视频骨干网络(如Video Swin Transformer),在预训练阶段通过判别式图像/视频任务进行优化,展现出更强的语义对齐能力与时间一致性保持潜力。在多个现有标准基准测试中,VD-IT取得了极具竞争力的性能表现,超越了众多现有的先进方法。代码已开源,地址为:https://github.com/buxiangzhiren/VD-IT。

代码仓库

buxiangzhiren/vd-it
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-video-object-segmentation-on-refVD-IT
F: 72.6
J: 66.2
Ju0026F: 69.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供