Command Palette
Search for a command to run...
Peng WangShuai BaiSinan TanShijie WangZhihao FanJinze BaiKeqin ChenXuejing LiuJialin WangWenbin GeYang FanKai DangMengfei DuXuancheng RenRui MenDayiheng LiuChang ZhouJingren ZhouJunyang Lin

摘要
我们推出Qwen2-VL系列,这是对先前Qwen-VL模型的全面升级,重新定义了传统视觉处理中预设固定分辨率的范式。Qwen2-VL引入了“朴素动态分辨率”(Naive Dynamic Resolution)机制,使模型能够根据输入图像的不同分辨率,动态地将其转换为不同数量的视觉标记(visual tokens)。这一方法显著提升了模型生成视觉表征的效率与准确性,更贴近人类的感知过程。此外,模型还集成了多模态旋转位置编码(Multimodal Rotary Position Embedding, M-RoPE),有效实现了文本、图像与视频之间位置信息的融合。我们采用统一的处理范式来应对图像与视频输入,进一步增强了模型的视觉感知能力。为探索大规模多模态模型的潜力,Qwen2-VL深入研究了大规模视觉语言模型(Large Vision-Language Models, LVLMs)的缩放规律。通过在模型规模(涵盖20亿、80亿和720亿参数版本)与训练数据量两个维度上同步扩展,Qwen2-VL系列取得了极具竞争力的性能表现。尤为突出的是,Qwen2-VL-72B模型在多个多模态基准测试中表现与GPT-4o、Claude3.5-Sonnet等领先模型相当,超越了其他通用型多模态模型。代码已开源,地址为:https://github.com/QwenLM/Qwen2-VL。
代码仓库
baichuan-inc/Baichuan-Omni-1.5
pytorch
GitHub 中提及
qwenlm/qwen2.5-vl
pytorch
GitHub 中提及
juruobenruo/DexVLA
pytorch
GitHub 中提及
qwenlm/qwen2-vl
官方
pytorch
GitHub 中提及
MindCode-4/code-4/tree/main/qwen2_vl
mindspore
tutujingyugang1/ChatVLA_public
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | Qwen2-VL-7B | Accuracy (%): 42.1 |
| temporal-relation-extraction-on-vinoground | Qwen2-VL-7B | Group Score: 15.2 Text Score: 40.2 Video Score: 32.4 |
| temporal-relation-extraction-on-vinoground | Qwen2-VL-72B | Group Score: 17.4 Text Score: 50.4 Video Score: 32.6 |
| video-question-answering-on-next-qa | Qwen2-VL(7B) | Accuracy: 81.2 |
| video-question-answering-on-tvbench | Qwen2-VL-72B | Average Accuracy: 52.7 |
| video-question-answering-on-tvbench | Qwen2-VL-7B | Average Accuracy: 43.8 |
| visual-question-answering-on-mm-vet | Qwen2-VL-2B | GPT-4 score: 49.5 |
| visual-question-answering-on-mm-vet | Qwen2-VL-72B | GPT-4 score: 74.0 |
| visual-question-answering-on-mm-vet | Qwen2-VL-7B | GPT-4 score: 62.0 |
| visual-question-answering-on-mm-vet-v2 | Qwen2-VL-72B (qwen-vl-max-0809) | GPT-4 score: 66.9±0.3 Params: 72B |
| visual-question-answering-vqa-on-vlm2-bench | Qwen2-VL-7B | Average Score on VLM2-bench (9 subtasks): 42.37 GC-mat: 27.80 GC-trk: 19.18 OC-cnt: 45.99 OC-cpr: 68.06 OC-grp: 35.00 PC-VID: 16.25 PC-cnt: 58.59 PC-cpr: 61.50 PC-grp: 49.00 |