Command Palette

Search for a command to run...

3 个月前

我们距离GPT-4V还有多远?通过开源套件缩小与商业多模态模型的差距

我们距离GPT-4V还有多远?通过开源套件缩小与商业多模态模型的差距

摘要

在本报告中,我们介绍了 InternVL 1.5,这是一个开源的多模态大语言模型(MLLM),旨在缩小开源模型与商业专有模型在多模态理解能力之间的差距。我们提出了三项简单而有效的改进:(1)强大的视觉编码器:我们针对大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,显著提升了其视觉理解能力,并使其能够被迁移并复用于不同的大语言模型中;(2)动态高分辨率处理:根据输入图像的宽高比和分辨率,将图像划分为 1 到 40 块,每块大小为 448×448 像素,支持最高达 4K 分辨率的输入;(3)高质量双语数据集:我们精心收集并构建了一个高质量的双语数据集,涵盖常见场景、文档图像等,并配有中英文问答对,显著提升了模型在 OCR 及中文相关任务上的表现。我们通过一系列基准测试与对比实验对 InternVL 1.5 进行了评估。结果表明,相较于开源及专有模型,InternVL 1.5 表现优异,在 18 项基准测试中取得了 8 项的最先进(SOTA)成绩。代码已开源,地址为:https://github.com/OpenGVLab/InternVL。

代码仓库

opengvlab/internvl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetInternVL 1.2
GPT-4 score: 48.9
Params: 40B
visual-question-answering-on-mm-vetInternVL 1.5
GPT-4 score: 62.8
Params: 26B
visual-question-answering-on-mm-vet-v2InternVL-Chat-V1-5
GPT-4 score: 51.5±0.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供