从2,000多个多语言基准测试中汲取的苦涩教训
Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
发布日期: 4/23/2025

摘要
随着大型语言模型(LLMs)在语言能力方面的不断进步,稳健的多语言评估已成为促进技术公平发展的重要手段。本立场文件考察了2021年至2024年间来自148个国家的超过2000个多语言(非英语)基准测试,以评估过去、现在和未来在多语言基准测试中的实践。研究结果表明,尽管已投入数千万美元的资金,这些基准测试中英语仍显著过量代表。此外,大多数基准测试依赖于原始语言内容而非翻译内容,其中大部分内容来源于资源丰富的国家,如中国、印度、德国、英国和美国。进一步比较基准测试性能与人类判断的结果显示了明显的差异。STEM相关任务与人类评价表现出较强的相关性(0.70至0.85),而传统的自然语言处理任务如问答(例如XQuAD)则显示出较弱的相关性(0.11至0.30)。此外,将英语基准测试翻译成其他语言被证明是不够的,因为本地化的基准测试与当地人类判断的一致性显著高于其翻译版本(分别为0.68和0.47)。这突显了创建文化和语言适应的基准测试的重要性,而不仅仅是依赖翻译。通过这一全面分析,我们指出了当前多语言评估实践中存在的六个关键限制,并据此提出了有效的多语言基准测试指导原则,并概述了五个关键的研究方向以推动该领域的进展。最后,我们呼吁全球合作努力开发优先考虑实际应用的人类对齐基准测试。