3 个月前

Qwen2 技术报告

摘要

本报告介绍了通义千问Qwen2系列，这是我们在大语言模型与多模态大模型领域推出的最新成果。我们发布了一套全面的基础语言模型与指令微调语言模型，参数规模覆盖0.5亿至720亿，包含密集模型（dense models）以及混合专家模型（Mixture-of-Experts, MoE）。Qwen2在多数此前公开权重的模型中表现领先，包括其前代模型Qwen1.5，并在语言理解、生成、多语言能力、代码生成、数学推理与逻辑推理等多个基准测试中展现出与闭源模型相媲美的竞争力。旗舰模型Qwen2-72B在基础语言模型模式下表现卓越：在MMLU上达到84.2分，GPQA为37.9分，HumanEval为64.6分，GSM8K为89.5分，BBH为82.4分。其指令微调版本Qwen2-72B-Instruct在MT-Bench上获得9.1分，Arena-Hard为48.1分，LiveCodeBench为35.7分。此外，Qwen2展现出强大的多语言能力，可熟练处理约30种语言，涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，充分体现了其广泛的适用性与全球覆盖能力。为推动社区创新并提升模型可及性，我们已将Qwen2系列模型的权重在Hugging Face¹和ModelScope²平台公开发布，并在GitHub³上提供配套的示例代码及其他补充材料。这些平台还提供了量化、微调与部署相关的资源，全面支持各类应用开发与研究工作。

代码仓库

qwenlm/qwen2

官方

pytorch

GitHub 中提及

yangyucheng000/University/tree/main/model-3/qwen2_moe

mindspore

yangyucheng000/University/tree/main/model-1/qwen2

mindspore

qwenlm/qwen1.5

pytorch

GitHub 中提及

ziye2chen/LLMs-for-Mathematical-Analysis

GitHub 中提及

vicentvankor/sun-shine

GitHub 中提及

基准测试

基准	方法	指标
arithmetic-reasoning-on-gsm8k	Qwen2-Math-72B-Instruct (greedy)	Accuracy: 96.7 Parameters (Billion): 72
math-word-problem-solving-on-math	Qwen2-Math-72B-Instruct(greedy)	Accuracy: 84.0 Parameters (Billions): 72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Qwen2 技术报告

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters