Command Palette
Search for a command to run...

摘要
视觉-语言模型(VLMs)日益受到关注,这主要得益于大语言模型和视觉Transformer架构的持续进步。尽管该领域已有大量相关研究文献,但我们发现,当前VLM设计中的诸多关键决策往往缺乏充分依据。我们认为,这些未经验证的设计选择阻碍了该领域的进展,使得难以明确哪些决策真正有助于提升模型性能。为解决这一问题,我们围绕预训练模型、架构选择、数据集以及训练方法等关键方面开展了系统性实验。基于这些研究,我们总结出一系列重要发现,并在此基础上开发了Idefics2——一个参数量为80亿的高效基础型视觉-语言模型。Idefics2在多个多模态基准测试中均达到了同规模模型中的最先进水平,其性能通常可与参数量为其四倍的模型相媲美。我们已公开发布该模型(包括基础版、指令微调版和对话版)以及用于其训练的全部数据集。
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| long-context-understanding-on-mmneedle | IDEFICS2-8B | 1 Image, 2*2 Stitching, Exact Accuracy: 18.9 1 Image, 4*4 Stitching, Exact Accuracy: 7.8 1 Image, 8*8 Stitching, Exact Accuracy: 0.9 10 Images, 1*1 Stitching, Exact Accuracy: 0 10 Images, 2*2 Stitching, Exact Accuracy: 0 10 Images, 4*4 Stitching, Exact Accuracy: 0 10 Images, 8*8 Stitching, Exact Accuracy: 0  | 
| mmr-total-on-mrr-benchmark | Idefics-2-8B | Total Column Score: 256  |