6 个月前

自然语言处理

Zhe Chen Weiyun Wang Hao Tian Shenglong Ye Zhangwei Gao Erfei Cui Wenwen Tong Kongzhi Hu Jiapeng Luo Zheng Ma

摘要

在本报告中，我们介绍了 InternVL 1.5，这是一个开源的多模态大语言模型（MLLM），旨在缩小开源模型与商业专有模型在多模态理解能力之间的差距。我们提出了三项简单而有效的改进：（1）强大的视觉编码器：我们针对大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略，显著提升了其视觉理解能力，并使其能够被迁移并复用于不同的大语言模型中；（2）动态高分辨率处理：根据输入图像的宽高比和分辨率，将图像划分为 1 到 40 块，每块大小为 448×448 像素，支持最高达 4K 分辨率的输入；（3）高质量双语数据集：我们精心收集并构建了一个高质量的双语数据集，涵盖常见场景、文档图像等，并配有中英文问答对，显著提升了模型在 OCR 及中文相关任务上的表现。我们通过一系列基准测试与对比实验对 InternVL 1.5 进行了评估。结果表明，相较于开源及专有模型，InternVL 1.5 表现优异，在 18 项基准测试中取得了 8 项的最先进（SOTA）成绩。代码已开源，地址为：https://github.com/OpenGVLab/InternVL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Zhe Chen Weiyun Wang Hao Tian Shenglong Ye Zhangwei Gao Erfei Cui Wenwen Tong Kongzhi Hu Jiapeng Luo Zheng Ma

摘要

在本报告中，我们介绍了 InternVL 1.5，这是一个开源的多模态大语言模型（MLLM），旨在缩小开源模型与商业专有模型在多模态理解能力之间的差距。我们提出了三项简单而有效的改进：（1）强大的视觉编码器：我们针对大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略，显著提升了其视觉理解能力，并使其能够被迁移并复用于不同的大语言模型中；（2）动态高分辨率处理：根据输入图像的宽高比和分辨率，将图像划分为 1 到 40 块，每块大小为 448×448 像素，支持最高达 4K 分辨率的输入；（3）高质量双语数据集：我们精心收集并构建了一个高质量的双语数据集，涵盖常见场景、文档图像等，并配有中英文问答对，显著提升了模型在 OCR 及中文相关任务上的表现。我们通过一系列基准测试与对比实验对 InternVL 1.5 进行了评估。结果表明，相较于开源及专有模型，InternVL 1.5 表现优异，在 18 项基准测试中取得了 8 项的最先进（SOTA）成绩。代码已开源，地址为：https://github.com/OpenGVLab/InternVL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供