6 个月前

摘要

视觉-语言预训练旨在从海量数据中学习视觉与语言之间的对齐关系。现有大多数方法仅关注图像与文本之间的对齐，而部分方法则借助预训练的目标检测器，在物体层级上建模视觉与语言的对齐关系。本文提出一种统一的预训练框架，能够同时学习多粒度的视觉-语言对齐与多粒度的定位能力，从而实现多粒度视觉-语言对齐的联合建模。基于该框架，我们提出了X²-VLM，一个具有灵活模块化架构的统一模型，进一步将图像-文本预训练与视频-文本预训练统一于同一模型之中。X²-VLM能够学习与多样化文本描述相关联的无限视觉概念。实验结果表明，无论在图像-文本任务还是视频-文本任务上，X²-VLM在基础模型和大规模模型设置下均表现最优，实现了性能与模型规模之间的良好权衡。此外，我们验证了X²-VLM模块化设计带来的高可迁移性，使其可灵活应用于任意语言或领域。例如，仅通过将文本编码器替换为XLM-R，X²-VLM便在无需任何多语言预训练的情况下，超越了当前最先进的多语言多模态预训练模型。代码与预训练模型已开源，地址为：https://github.com/zengyan-97/X2-VLM。

源 PDF