Command Palette
Search for a command to run...

摘要
近年来,多模态预训练模型被广泛研究,旨在实现视觉与语言之间的有效对齐。然而,大多数现有方法均显式建模图像与文本对之间的跨模态交互,其前提假设是文本与图像模态之间存在强语义关联。然而,在现实场景中,这一强假设往往不成立。为此,我们选择在大规模多模态预训练中隐式建模跨模态相关性,这正是由我们团队主导的中文项目“文澜”(WenLan)的核心研究方向。具体而言,在图像与文本对之间仅假设弱相关性的前提下,我们在跨模态对比学习框架下提出了一种双塔预训练模型——BriVL。与OpenAI的CLIP采用简单对比学习方法不同,我们通过将最新的MoCo(Momentum Contrast)方法引入跨模态场景,设计了一种更为先进的算法。通过构建基于大容量队列的字典结构,BriVL能够在有限的GPU资源下纳入更多负样本,显著提升对比学习的效率与性能。此外,我们进一步构建了一个大规模中文多源图像-文本数据集——RUC-CAS-WenLan,用于BriVL模型的预训练。大量实验证明,预训练后的BriVL模型在多个下游任务上均优于UNITER和OpenAI CLIP,展现出卓越的跨模态理解能力。
代码仓库
BAAI-WuDao/BriVl
pytorch
GitHub 中提及
Aman-4-Real/MMTG
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-aic-icc | CMCL | BLEU: 66.1 CIDEr: 220.7 METEOR: 41.1 ROUGE-L: 71.9 |
| image-retrieval-on-aic-icc | CMCL | Recall@1: 14.4 Recall@10: 39.1 Recall@5: 39.1 |
| image-retrieval-on-ruc-cas-wenlan | CMCL | Recall@1: 36 Recall@10: 62.1 Recall@5: 55.4 |
| image-to-text-retrieval-on-aic-icc | CMCL | Recall@1: 20.3 Recall@10: 45.6 Recall@5: 37 |
| image-to-text-retrieval-on-ruc-cas-wenlan | CMCL | Recall@1: 36.1 Recall@10: 62.2 Recall@5: 55.5 |