HyperAIHyperAI

Command Palette

Search for a command to run...

音译对多语言语言建模有帮助吗?

Ibraheem Muhammad Moosa Mahmud Elahi Akhter Ashfia Binte Habib

摘要

脚本多样性对多语言语言模型(Multilingual Language Models, MLLM)构成了挑战,因为它降低了语义上密切相关语言之间的词汇重叠度。因此,将使用不同书写系统的密切关联语言通过音译转换至统一书写系统,可能有助于提升MLLM在下游任务中的性能。本文通过实证方法系统评估了音译对MLLM的影响。研究聚焦于全球脚本多样性最高的印地语族语言(Indic languages),并在IndicGLUE基准测试上评估模型表现。为严谨验证音译效果是否具有统计显著性,我们采用Mann-Whitney U检验进行分析。实验结果表明,音译显著提升了低资源语言的性能,同时未对资源相对丰富的语言造成负面影响。此外,我们利用FLORES-101数据集中平行语句的中心核对齐(centered kernel alignment, CKAs)方法,测量了模型的跨语言表征相似性。结果发现,在不同语言的平行句对上,基于音译的模型所学习到的句子表征具有更高的相似性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供