HyperAI超神经
12 hours ago

C3:一个用于探索复杂对话中挑战的双语口语对话模型基准

Chengqian Ma, Wei Tao, Yiwen Guo
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
摘要

近年来,语音对话模型(Spoken Dialogue Models, SDMs)因其能够直接根据用户的语音查询生成语音回应而受到广泛关注。尽管其应用日益普及,但针对其在理解与模拟人类对话方面实际效能的系统性研究仍显不足,尤其相较于在文本领域广泛应用的大型语言模型(Large Language Models, LLMs),后者已建立起较为完善的评估基准体系。人类语音交互相较于文本交互具有更高的内在复杂性,这主要源于语音对话所特有的多种特征。其中,歧义性是一个关键挑战,它既源于语义层面的多义性(polysemy),也来自语音层面的异形同音、异音同形以及重音模式等现象。此外,上下文依赖性问题——如省略、指代消解以及多轮交互等——进一步加剧了人类对话行为的复杂性。为揭示当前语音对话模型的发展现状并应对上述挑战,本文提出一个基准数据集,包含1,079个英语与中文实例。该数据集配套采用基于大型语言模型(LLM)的评估方法,其评价标准与人类判断高度一致,从而为系统性探究SDMs在应对这些实际挑战中的表现提供了有力支持。