Kuwain 1.5B:通过语言注入实现的阿拉伯语SLM
Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
发布日期: 4/28/2025

摘要
增强现有模型的新知识是人工智能发展中的一个重要方面。本文介绍了一种将新语言集成到大型语言模型(LLM)中的新方法。我们的方法成功地将一种先前未见过的目标语言整合到现有的大型语言模型中,而不会损害其原有的知识。我们通过向一个主要以英语训练的小型开源模型注入阿拉伯语,训练了一个拥有15亿参数的小型模型,命名为Kuwain。该方法在阿拉伯语性能上显示出显著的改进,在各种基准测试中平均提高了8%,同时仅使用少量原始模型的数据就保留了模型的现有知识。这为在英语和阿拉伯语之间训练全面的模型提供了一种成本效益较高的替代方案。研究结果突显了在不进行广泛再训练或资源密集型过程的情况下,高效、定向扩展语言模型的潜力。