3 days ago
Falcon-H1:一类混合头语言模型,重新定义效率与性能
Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha

摘要
在本报告中,我们推出Falcon-H1系列新型大语言模型(LLMs),该系列采用混合架构设计,在多种应用场景下均实现了高性能与高效率的优化。与早期仅基于Transformer或Mamba架构的Falcon模型不同,Falcon-H1采用并行式混合架构,融合了基于Transformer的注意力机制与状态空间模型(SSMs),后者以卓越的长上下文记忆能力与计算效率著称。我们系统性地重新审视了模型设计、数据策略与训练动态,挑战了该领域内传统实践。Falcon-H1以多种配置发布,包括0.5B、1.5B、1.5B-Deep、3B、7B和34B参数量的基座模型及指令微调版本。同时,还提供了量化后的指令微调模型,总计在Hugging Face Hub上提供超过30个检查点。Falcon-H1系列模型展现出业界领先的表现,并具备极高的参数利用率与训练效率。其旗舰模型Falcon-H1-34B在性能上可媲美甚至超越规模高达70B的模型,如Qwen3-32B、Qwen2.5-72B和Llama3.3-70B,同时使用更少的参数与训练数据。在较小规模模型中亦呈现相似趋势:Falcon-H1-1.5B-Deep已可与当前主流的7B至10B级模型相媲美,而Falcon-H1-0.5B的性能则可与2024年典型7B级模型相当。这些模型在推理能力、数学计算、多语言任务、指令遵循以及科学知识理解等方面均表现优异。Falcon-H1支持最高达256K上下文令牌和18种语言,适用于广泛的下游应用。所有模型均采用宽松的开源许可协议发布,彰显我们推动可及性与高影响力人工智能研究的坚定承诺。