Command Palette
Search for a command to run...
InternLM-XComposer-2.5:一个支持长上下文输入与输出的通用大视觉语言模型
InternLM-XComposer-2.5:一个支持长上下文输入与输出的通用大视觉语言模型
摘要
我们提出 InternLM-XComposer-2.5(简称 IXC-2.5),这是一个功能强大的多模态大模型,支持长上下文输入与输出。IXC-2.5 在多种文本-图像理解与生成任务中表现卓越,仅使用 70 亿参数的轻量级语言模型(LLM)作为后端,即可达到 GPT-4V 水平的综合能力。该模型在 2.4 万组交错排列的图文上下文上进行训练,通过 RoPE 外推技术可无缝扩展至 9.6 万 token 的超长上下文,使其在需要大范围输入与输出的复杂任务中具备显著优势。相较于前代 2.0 版本,IXC-2.5 在视觉-语言理解方面实现了三大关键升级:(1)超高清图像理解能力,(2)细粒度视频理解能力,以及(3)多轮多图像对话能力。在理解能力之外,IXC-2.5 还通过引入额外的 LoRA 参数,拓展至两个极具应用价值的文本-图像生成任务:(1)网页内容自动生成,(2)高质量图文文章创作。IXC-2.5 已在 28 个基准测试中完成评估,其在 16 个基准上超越现有开源最先进模型;在 16 项关键任务中,表现优于或与 GPT-4V 和 Gemini Pro 持平。InternLM-XComposer-2.5 已开源,项目地址为:https://github.com/InternLM/InternLM-XComposer。