Command Palette

Search for a command to run...

5 个月前

InternLM-XComposer-2.5:一个支持长上下文输入与输出的通用大视觉语言模型

InternLM-XComposer-2.5:一个支持长上下文输入与输出的通用大视觉语言模型

摘要

我们提出 InternLM-XComposer-2.5(简称 IXC-2.5),这是一个功能强大的多模态大模型,支持长上下文输入与输出。IXC-2.5 在多种文本-图像理解与生成任务中表现卓越,仅使用 70 亿参数的轻量级语言模型(LLM)作为后端,即可达到 GPT-4V 水平的综合能力。该模型在 2.4 万组交错排列的图文上下文上进行训练,通过 RoPE 外推技术可无缝扩展至 9.6 万 token 的超长上下文,使其在需要大范围输入与输出的复杂任务中具备显著优势。相较于前代 2.0 版本,IXC-2.5 在视觉-语言理解方面实现了三大关键升级:(1)超高清图像理解能力,(2)细粒度视频理解能力,以及(3)多轮多图像对话能力。在理解能力之外,IXC-2.5 还通过引入额外的 LoRA 参数,拓展至两个极具应用价值的文本-图像生成任务:(1)网页内容自动生成,(2)高质量图文文章创作。IXC-2.5 已在 28 个基准测试中完成评估,其在 16 个基准上超越现有开源最先进模型;在 16 项关键任务中,表现优于或与 GPT-4V 和 Gemini Pro 持平。InternLM-XComposer-2.5 已开源,项目地址为:https://github.com/InternLM/InternLM-XComposer。

代码仓库

internlm/internlm-xcomposer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-relation-extraction-on-vinogroundInternLM-XC-2.5
Group Score: 9.6
Text Score: 28.8
Video Score: 27.8
temporal-relation-extraction-on-vinogroundInternLM-XC-2.5 (CoT)
Group Score: 9
Text Score: 30.8
Video Score: 28.4
video-question-answering-on-tvbenchIXC-2.5 7B
Average Accuracy: 51.6
visual-question-answering-on-mm-vetIXC-2.5-7B
GPT-4 score: 51.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供