BitNet b1.58 2B4T 技术报告

Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

发布日期: 4/24/2025

摘要

我们介绍了BitNet b1.58 2B4T，这是首个开源的、原生1位的大型语言模型（LLM），参数规模达到20亿。该模型基于4万亿个标记的语料库进行训练，并在涵盖语言理解、数学推理、编程能力和对话能力的基准测试中进行了严格评估。我们的结果显示，BitNet b1.58 2B4T在性能上与同规模的领先开源全精度LLM相当，同时在计算效率方面具有显著优势，包括大幅减少内存占用、能耗和解码延迟。为了促进进一步的研究和应用，该模型的权重通过Hugging Face发布，并提供了针对GPU和CPU架构的开源推理实现。

查看论文详情