Command Palette
Search for a command to run...

摘要
我们提出 InternLM-XComposer-2.5(简称 IXC-2.5),这是一个功能强大的多模态大模型,支持长上下文输入与输出。IXC-2.5 在多种文本-图像理解与生成任务中表现卓越,仅使用 70 亿参数的轻量级语言模型(LLM)作为后端,即可达到 GPT-4V 水平的综合能力。该模型在 2.4 万组交错排列的图文上下文上进行训练,通过 RoPE 外推技术可无缝扩展至 9.6 万 token 的超长上下文,使其在需要大范围输入与输出的复杂任务中具备显著优势。相较于前代 2.0 版本,IXC-2.5 在视觉-语言理解方面实现了三大关键升级:(1)超高清图像理解能力,(2)细粒度视频理解能力,以及(3)多轮多图像对话能力。在理解能力之外,IXC-2.5 还通过引入额外的 LoRA 参数,拓展至两个极具应用价值的文本-图像生成任务:(1)网页内容自动生成,(2)高质量图文文章创作。IXC-2.5 已在 28 个基准测试中完成评估,其在 16 个基准上超越现有开源最先进模型;在 16 项关键任务中,表现优于或与 GPT-4V 和 Gemini Pro 持平。InternLM-XComposer-2.5 已开源,项目地址为:https://github.com/InternLM/InternLM-XComposer。
代码仓库
internlm/internlm-xcomposer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| temporal-relation-extraction-on-vinoground | InternLM-XC-2.5 | Group Score: 9.6 Text Score: 28.8 Video Score: 27.8  | 
| temporal-relation-extraction-on-vinoground | InternLM-XC-2.5 (CoT) | Group Score: 9 Text Score: 30.8 Video Score: 28.4  | 
| video-question-answering-on-tvbench | IXC-2.5 7B | Average Accuracy: 51.6  | 
| visual-question-answering-on-mm-vet | IXC-2.5-7B | GPT-4 score: 51.7  |