BitNet b1.58 2B4T 技术报告
Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei
发布日期: 4/24/2025
摘要
我们介绍了BitNet b1.58 2B4T,这是首个开源的、原生1位的大型语言模型(LLM),参数规模达到20亿。该模型基于4万亿个标记的语料库进行训练,并在涵盖语言理解、数学推理、编程能力和对话能力的基准测试中进行了严格评估。我们的结果显示,BitNet b1.58 2B4T在性能上与同规模的领先开源全精度LLM相当,同时在计算效率方面具有显著优势,包括大幅减少内存占用、能耗和解码延迟。为了促进进一步的研究和应用,该模型的权重通过Hugging Face发布,并提供了针对GPU和CPU架构的开源推理实现。