Command Palette
Search for a command to run...
Yuan YaoTianyu YuAo ZhangChongyi WangJunbo CuiHongji ZhuTianchi CaiHaoyu LiWeilin ZhaoZhihui HeQianyu ChenHuarong ZhouZhensheng ZouHaoye ZhangShengding HuZhi ZhengJie ZhouJie CaiXu HanGuoyang ZengDahai LiZhiyuan LiuMaosong Sun

摘要
近年来,多模态大语言模型(MLLMs)的迅猛发展从根本上重塑了人工智能研究与产业格局,为迈向下一阶段AI里程碑指明了一条充满希望的道路。然而,诸多挑战仍阻碍着MLLM在现实应用场景中的实际落地。其中最突出的问题在于,拥有海量参数和庞大计算需求的MLLM运行成本极高。因此,大多数MLLM必须部署在高性能云服务器上,这极大地限制了其在移动端、离线环境、低功耗场景以及注重隐私保护等领域的应用。本文提出MiniCPM-V系列高效多模态大语言模型,可直接部署于终端设备。通过融合最新的MLLM架构设计、预训练方法与对齐技术,最新版本MiniCPM-Llama3-V 2.5具备以下显著特性:(1)卓越的综合性能,在OpenCompass平台对11个主流基准的全面评估中,超越GPT-4V-1106、Gemini Pro和Claude 3;(2)强大的OCR能力,支持任意长宽比下高达180万像素的高分辨率图像感知;(3)行为可信,幻觉率极低;(4)支持30多种语言的多语言处理能力;(5)可在智能手机等移动设备上实现高效部署。更重要的是,MiniCPM-V可被视为一种极具代表性的趋势:实现具备可用性(如GPT-4V级别)性能的模型规模正在迅速缩小,与此同时终端侧计算能力正飞速提升。这一双重趋势共同表明,未来在终端设备上部署达到GPT-4V水平的多模态大语言模型正变得日益可行,从而为更广泛的真实世界AI应用打开全新可能。
代码仓库
OpenBMB/MiniCPM-o
官方
pytorch
GitHub 中提及
openbmb/minicpm-v
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| temporal-relation-extraction-on-vinoground | MiniCPM-2.6 | Group Score: 11.2 Text Score: 32.6 Video Score: 29.2  | 
| zero-shot-video-question-answer-on-video-mme-1 | MiniCPM-V 2.6 (8B) | Accuracy (%): 63.7  |