HyperAIHyperAI

Command Palette

Search for a command to run...

InternLM-XComposer-2.5:一个支持长上下文输入与输出的通用大视觉语言模型

摘要

我们提出 InternLM-XComposer-2.5(简称 IXC-2.5),这是一个功能强大的多模态大模型,支持长上下文输入与输出。IXC-2.5 在多种文本-图像理解与生成任务中表现卓越,仅使用 70 亿参数的轻量级语言模型(LLM)作为后端,即可达到 GPT-4V 水平的综合能力。该模型在 2.4 万组交错排列的图文上下文上进行训练,通过 RoPE 外推技术可无缝扩展至 9.6 万 token 的超长上下文,使其在需要大范围输入与输出的复杂任务中具备显著优势。相较于前代 2.0 版本,IXC-2.5 在视觉-语言理解方面实现了三大关键升级:(1)超高清图像理解能力,(2)细粒度视频理解能力,以及(3)多轮多图像对话能力。在理解能力之外,IXC-2.5 还通过引入额外的 LoRA 参数,拓展至两个极具应用价值的文本-图像生成任务:(1)网页内容自动生成,(2)高质量图文文章创作。IXC-2.5 已在 28 个基准测试中完成评估,其在 16 个基准上超越现有开源最先进模型;在 16 项关键任务中,表现优于或与 GPT-4V 和 Gemini Pro 持平。InternLM-XComposer-2.5 已开源,项目地址为:https://github.com/InternLM/InternLM-XComposer


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供