8 个月前

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample et al

摘要

我们介绍了Magistral，这是Mistral的第一个推理模型，以及我们自主研发的可扩展强化学习（RL）管道。不同于依赖现有的实现和从先前模型中提取的RL轨迹，我们采取了一种从零开始的方法，完全依赖于我们自己的模型和基础设施。特别值得一提的是，我们展示了一个堆栈，该堆栈使我们能够探索纯强化学习训练大语言模型（LLM）的极限，提出了一种简单的方法来强制模型的推理语言，并证明了仅基于文本数据的强化学习可以保持初始检查点的大部分能力。研究发现，基于文本的强化学习能够维持或提升多模态理解、指令遵循和函数调用的能力。我们推出了经过纯强化学习训练以增强推理能力的Magistral Medium，该模型是在Mistral Medium 3的基础上训练而成。此外，我们开源了Magistral Small（Apache 2.0许可），该版本进一步包含了来自Magistral Medium的冷启动数据。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample et al

摘要

我们介绍了Magistral，这是Mistral的第一个推理模型，以及我们自主研发的可扩展强化学习（RL）管道。不同于依赖现有的实现和从先前模型中提取的RL轨迹，我们采取了一种从零开始的方法，完全依赖于我们自己的模型和基础设施。特别值得一提的是，我们展示了一个堆栈，该堆栈使我们能够探索纯强化学习训练大语言模型（LLM）的极限，提出了一种简单的方法来强制模型的推理语言，并证明了仅基于文本数据的强化学习可以保持初始检查点的大部分能力。研究发现，基于文本的强化学习能够维持或提升多模态理解、指令遵循和函数调用的能力。我们推出了经过纯强化学习训练以增强推理能力的Magistral Medium，该模型是在Mistral Medium 3的基础上训练而成。此外，我们开源了Magistral Small（Apache 2.0许可），该版本进一步包含了来自Magistral Medium的冷启动数据。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供