8 个月前

统一多模态

Dongxu Li Yudong Liu Haoning Wu Yue Wang Zhiqi Shen Bowen Qu Xinyao Niu Guoyin Wang Bei Chen Junnan Li

摘要

信息以多种模态形式呈现。多模态原生人工智能模型对于整合现实世界信息并实现全面理解至关重要。尽管已存在一些专有型多模态原生模型，但其封闭性给模型的采用乃至适配带来了障碍。为填补这一空白，我们提出 Aria——一个开源的多模态原生模型，在广泛的多模态、语言和代码生成任务中均达到业界领先水平。Aria 是一种专家混合（Mixture-of-Experts）模型，每张图像 token 和每个文本 token 分别激活 39 亿和 35 亿参数。该模型在多项多模态任务中表现优于 Pixtral-12B 和 Llama3.2-11B，并在与最先进专有模型的对比中展现出竞争力。我们采用四阶段预训练流程从零开始训练 Aria，逐步赋予模型强大的语言理解、多模态理解、长上下文处理以及指令遵循能力。我们已开源 Aria 的模型权重，并提供配套代码库，以支持其在实际应用中的便捷采用与灵活适配。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Dongxu Li Yudong Liu Haoning Wu Yue Wang Zhiqi Shen Bowen Qu Xinyao Niu Guoyin Wang Bei Chen Junnan Li

摘要

信息以多种模态形式呈现。多模态原生人工智能模型对于整合现实世界信息并实现全面理解至关重要。尽管已存在一些专有型多模态原生模型，但其封闭性给模型的采用乃至适配带来了障碍。为填补这一空白，我们提出 Aria——一个开源的多模态原生模型，在广泛的多模态、语言和代码生成任务中均达到业界领先水平。Aria 是一种专家混合（Mixture-of-Experts）模型，每张图像 token 和每个文本 token 分别激活 39 亿和 35 亿参数。该模型在多项多模态任务中表现优于 Pixtral-12B 和 Llama3.2-11B，并在与最先进专有模型的对比中展现出竞争力。我们采用四阶段预训练流程从零开始训练 Aria，逐步赋予模型强大的语言理解、多模态理解、长上下文处理以及指令遵循能力。我们已开源 Aria 的模型权重，并提供配套代码库，以支持其在实际应用中的便捷采用与灵活适配。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供