Mutarjim:使用小型语言模型推进双向阿拉伯语-英语翻译
Hennara, Khalil ; Hreden, Muhammad ; Hamed, Mohamed Motaism ; Aldallal, Zeina ; Chrouf, Sara ; AlModhayan, Safwan
发布日期: 5/27/2025

摘要
我们介绍了一种紧凑而强大的双向阿拉伯语-英语翻译语言模型——Mutarjim。尽管大规模语言模型(LLMs)在自然语言处理任务中,包括机器翻译方面取得了令人印象深刻的进展,但小型模型同样具有其独特的优势。基于这一认识,我们开发了Mutarjim,该模型基于Kuwain-1.5B,专门针对阿拉伯语和英语进行了优化。尽管其规模相对较小,但在多个已建立的基准测试中,Mutarjim的表现超过了更大的模型,这得益于优化的两阶段训练方法和精心挑选的高质量训练语料库。实验结果表明,Mutarjim在性能上可以匹敌比其大20倍的模型,同时显著降低了计算成本和训练需求。此外,我们还引入了Tarjama-25,这是一个新的基准测试集,旨在克服现有阿拉伯语-英语基准数据集中的一些局限性,如领域狭窄、句子长度较短以及以英语为源语言的偏见。Tarjama-25包含5,000个由专家审阅的句子对,并覆盖了广泛的领域,提供了一个更加全面和平衡的评估框架。值得注意的是,在Tarjama-25的英译阿任务中,Mutarjim达到了最先进的性能水平,甚至超过了像GPT-4 mini这样的大型专有模型。我们公开发布了Tarjama-25以支持未来的研究,并推动阿拉伯语-英语翻译系统的评估发展。