HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP:通过自举语言-图像预训练实现统一的视觉-语言理解和生成

Zihang Dai Yonghui Wu Chengkai Zhang Qiwei Li Yiming Yang Xun Huang Zhiheng Huang Yonghong Li

摘要

视觉-语言预训练(VLP)在许多视觉-语言任务中提升了性能。然而,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,性能的提升主要通过扩大数据集来实现,这些数据集中的图像-文本对是从网络上收集的带有噪声的数据,这并不是一个理想的监督来源。本文提出了一种新的VLP框架——BLIP,该框架能够灵活地应用于视觉-语言理解和生成任务。BLIP通过引导式生成标题有效利用了带噪声的网络数据,其中标题生成器生成合成标题,而过滤器则移除噪声标题。我们在广泛的视觉-语言任务上取得了最先进的结果,例如图像-文本检索(平均召回率@1提高2.7%)、图像描述(CIDEr分数提高2.8%)和视觉问答(VQA得分提高1.6%)。BLIP在直接以零样本方式迁移至视频-语言任务时也展示了强大的泛化能力。代码、模型和数据集已发布在 https://github.com/salesforce/BLIP


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供