HyperAIHyperAI

Command Palette

Search for a command to run...

VicTR:基于视频的文本表示用于活动识别

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

摘要

视觉-语言模型(VLMs)在图像领域表现出色,尤其是在零样本设置下,这得益于大量可用的预训练数据(即配对的图像-文本样本)。然而,对于视频而言,这种配对的数据并不那么丰富。因此,视频-VLMs通常通过将预训练的图像-VLMs适应到视频领域来设计,而不是从头开始训练。所有这些方法都依赖于在视觉嵌入中添加时间信息(即图像 \rightarrow 视频),通常保持文本嵌入不变甚至被丢弃。在本文中,我们提出相反的观点,认为通过更多地增强文本而非视觉信息可以设计出更好的视频-VLMs。具体来说,我们引入了视频条件下的文本表示(VicTR):一种针对视觉嵌入进行优化的文本嵌入形式,从而创建一个更加灵活的对比潜在空间。我们的模型还可以利用自由获取的语义信息,以视觉基础辅助文本的形式出现(例如物体或场景信息)。我们在少样本、零样本(HMDB-51、UCF-101)、短视频(Kinetics-400)和长视频(Charades)活动识别基准上评估了我们的模型,结果显示其在视频-VLMs中具有强大的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供