Command Palette

Search for a command to run...

3 个月前

Qwen2 技术报告

Qwen2 技术报告

摘要

本报告介绍了通义千问Qwen2系列,这是我们在大语言模型与多模态大模型领域推出的最新成果。我们发布了一套全面的基础语言模型与指令微调语言模型,参数规模覆盖0.5亿至720亿,包含密集模型(dense models)以及混合专家模型(Mixture-of-Experts, MoE)。Qwen2在多数此前公开权重的模型中表现领先,包括其前代模型Qwen1.5,并在语言理解、生成、多语言能力、代码生成、数学推理与逻辑推理等多个基准测试中展现出与闭源模型相媲美的竞争力。旗舰模型Qwen2-72B在基础语言模型模式下表现卓越:在MMLU上达到84.2分,GPQA为37.9分,HumanEval为64.6分,GSM8K为89.5分,BBH为82.4分。其指令微调版本Qwen2-72B-Instruct在MT-Bench上获得9.1分,Arena-Hard为48.1分,LiveCodeBench为35.7分。此外,Qwen2展现出强大的多语言能力,可熟练处理约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,充分体现了其广泛的适用性与全球覆盖能力。为推动社区创新并提升模型可及性,我们已将Qwen2系列模型的权重在Hugging Face¹和ModelScope²平台公开发布,并在GitHub³上提供配套的示例代码及其他补充材料。这些平台还提供了量化、微调与部署相关的资源,全面支持各类应用开发与研究工作。

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kQwen2-Math-72B-Instruct (greedy)
Accuracy: 96.7
Parameters (Billion): 72
math-word-problem-solving-on-mathQwen2-Math-72B-Instruct(greedy)
Accuracy: 84.0
Parameters (Billions): 72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供