Command Palette
Search for a command to run...
Zhe ChenWeiyun WangHao TianShenglong YeZhangwei GaoErfei CuiWenwen TongKongzhi HuJiapeng LuoZheng MaJi MaJiaqi WangXiaoyi DongHang YanHewei GuoConghui HeZhenjiang JinChao XuBin WangXingjian WeiWei LiWenjian ZhangLewei LuXizhou ZhuTong LuDahua LinYu Qiao

摘要
在本报告中,我们介绍了 InternVL 1.5,这是一个开源的多模态大语言模型(MLLM),旨在缩小开源模型与商业专有模型在多模态理解能力之间的差距。我们提出了三项简单而有效的改进:(1)强大的视觉编码器:我们针对大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,显著提升了其视觉理解能力,并使其能够被迁移并复用于不同的大语言模型中;(2)动态高分辨率处理:根据输入图像的宽高比和分辨率,将图像划分为 1 到 40 块,每块大小为 448×448 像素,支持最高达 4K 分辨率的输入;(3)高质量双语数据集:我们精心收集并构建了一个高质量的双语数据集,涵盖常见场景、文档图像等,并配有中英文问答对,显著提升了模型在 OCR 及中文相关任务上的表现。我们通过一系列基准测试与对比实验对 InternVL 1.5 进行了评估。结果表明,相较于开源及专有模型,InternVL 1.5 表现优异,在 18 项基准测试中取得了 8 项的最先进(SOTA)成绩。代码已开源,地址为:https://github.com/OpenGVLab/InternVL。
代码仓库
opengvlab/internvl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternVL 1.2 | GPT-4 score: 48.9 Params: 40B |
| visual-question-answering-on-mm-vet | InternVL 1.5 | GPT-4 score: 62.8 Params: 26B |
| visual-question-answering-on-mm-vet-v2 | InternVL-Chat-V1-5 | GPT-4 score: 51.5±0.2 |