
摘要
参考式音视频分割(Referring Audio-Visual Segmentation, RAVS)近年来取得了显著进展,但在多模态信息融合以及对音视频内容的深层理解与推理方面仍面临挑战。为拓展RAVS的研究边界,并推动该领域的未来发展,我们提出了全模态参考式音视频分割(Omnimodal Referring Audio-Visual Segmentation, OmniAVS),这是一个包含2,098段视频和59,458条多模态参考表达的新数据集。OmniAVS具有三大核心创新:(1)涵盖8种类型的多模态表达,能够灵活结合文本、语音、声音与视觉线索;(2)强调对音频内容的理解,而不仅限于检测其存在;(3)在表达中引入复杂的推理任务与世界知识。此外,我们提出了全模态指令分割助手(Omnimodal Instructed Segmentation Assistant, OISA),以应对OmniAVS中多模态推理与细粒度音视频理解的挑战。OISA利用多模态大语言模型(MLLM)来理解复杂线索,并实现基于推理的分割。大量实验表明,OISA在OmniAVS数据集上优于现有方法,并在其他相关任务中也取得了具有竞争力的性能表现。