Command Palette

Search for a command to run...

2 个月前

Kimi-VL 技术报告

Kimi-VL 技术报告

摘要

我们提出Kimi-VL,这是一种高效开源的专家混合(Mixture-of-Experts, MoE)视觉语言模型(VLM),具备先进的多模态推理能力、长上下文理解能力以及强大的智能体(agent)功能,同时其语言解码器仅激活28亿参数(Kimi-VL-A3B)。Kimi-VL在多个具有挑战性的领域均展现出卓越性能:作为通用型VLM,它在多轮智能体任务(如OSWorld)中表现优异,达到行业领先模型的水平;同时在多种复杂视觉语言任务中也展现出突出能力,涵盖大学水平的图像与视频理解、光学字符识别(OCR)、数学推理以及多图像理解等。在对比评估中,Kimi-VL在效率和性能上均能与当前先进的高效VLM(如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT)相媲美,并在多个关键任务中超越GPT-4o的表现。此外,Kimi-VL在长上下文处理与清晰感知方面也取得显著进展。其支持128K扩展上下文窗口,能够高效处理多样化的长序列输入,在LongVideoBench上取得64.5分,在MMLongBench-Doc上获得35.1分,表现令人印象深刻。其原生高分辨率视觉编码器MoonViT,使模型能够准确感知和理解超高清视觉输入,在InfoVQA上达到83.2分,在ScreenSpot-Pro上获得34.5分,同时在常规任务中保持较低的计算开销。基于Kimi-VL,我们进一步推出了增强型长思维版本:Kimi-VL-Thinking。该模型通过长链式思维(Chain-of-Thought, CoT)监督微调(SFT)与强化学习(RL)训练而成,具备强大的长时程推理能力。在保持仅激活28亿参数的轻量级语言模型基础上,其在MMMU上取得61.7分,MathVision上达36.8分,MathVista上达到71.3分,为高效多模态思维模型树立了新标杆。代码与模型已公开,可访问:https://github.com/MoonshotAI/Kimi-VL。

代码仓库

moonshotai/kimi-vl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
optical-character-recognition-on-ocrbench-v2-chineseKimi-VL-A3B-16B
Accuracy: 54.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供