HyperAIHyperAI

Command Palette

Search for a command to run...

X2^22-VLM:面向视觉-语言任务的全功能预训练模型

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

摘要

视觉-语言预训练旨在从海量数据中学习视觉与语言之间的对齐关系。现有大多数方法仅关注图像与文本之间的对齐,而部分方法则借助预训练的目标检测器,在物体层级上建模视觉与语言的对齐关系。本文提出一种统一的预训练框架,能够同时学习多粒度的视觉-语言对齐与多粒度的定位能力,从而实现多粒度视觉-语言对齐的联合建模。基于该框架,我们提出了X²-VLM,一个具有灵活模块化架构的统一模型,进一步将图像-文本预训练与视频-文本预训练统一于同一模型之中。X²-VLM能够学习与多样化文本描述相关联的无限视觉概念。实验结果表明,无论在图像-文本任务还是视频-文本任务上,X²-VLM在基础模型和大规模模型设置下均表现最优,实现了性能与模型规模之间的良好权衡。此外,我们验证了X²-VLM模块化设计带来的高可迁移性,使其可灵活应用于任意语言或领域。例如,仅通过将文本编码器替换为XLM-R,X²-VLM便在无需任何多语言预训练的情况下,超越了当前最先进的多语言多模态预训练模型。代码与预训练模型已开源,地址为:https://github.com/zengyan-97/X2-VLM


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供