HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP 能为视觉-语言任务带来多大提升?

Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Zhewei Yao Kurt Keutzer

摘要

现有的大多数视觉-语言(Vision-and-Language, V&L)模型依赖于预训练的视觉编码器,并利用相对较小规模的人工标注数据集(相较于网络爬取的数据)来感知视觉世界。然而,已有研究表明,大规模预训练通常能够带来更优的泛化性能。例如,CLIP(对比语言-图像预训练)在海量图像-标题配对数据上进行训练,已在多种视觉任务中展现出强大的零样本(zero-shot)能力。为了进一步探究CLIP所带来的优势,本文提出在两类典型场景下将CLIP作为视觉编码器集成到多种V&L模型中:1)将CLIP嵌入特定任务的微调流程中;2)将CLIP与V&L预训练相结合,并迁移到下游任务。实验结果表明,CLIP显著优于广泛使用的、基于领域内人工标注数据训练的视觉编码器(如Bottom-Up-Top-Down)。我们在多个V&L任务上取得了具有竞争力甚至更优的性能,尤其在视觉问答(Visual Question Answering)、视觉蕴含(Visual Entailment)以及视觉语言导航(V&L Navigation)任务上达到了新的最先进水平。相关代码已开源,地址为:https://github.com/clip-vil/CLIP-ViL


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供