HyperAI超神经

Stream-Omni:基于大型语言-视觉-语音模型的同步多模态交互

Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
发布日期: 6/18/2025
Stream-Omni:基于大型语言-视觉-语音模型的同步多模态交互
摘要

GPT-4o 类似的大型多模态模型(LMMs)的出现引发了将文本、视觉和语音模态整合以支持更加灵活的多模态交互的研究探索。现有的多模态模型通常沿着序列维度拼接不同模态的表示,并将其输入到大型语言模型(LLM)的主干网络中。虽然沿序列维度拼接可以简便地实现模态融合,但这种方法往往需要依赖大规模数据来学习模态对齐。本文旨在更有目的地建模不同模态之间的关系,从而实现更高效和灵活的模态对齐。为此,我们提出了一种名为 Stream-Omni 的大型语言-视觉-语音模型,该模型具有高效的模态对齐能力,能够同时支持多种模态组合下的交互。Stream-Omni 采用 LLM 作为主干网络,并基于它们之间的关系将视觉和语音与文本对齐。对于在语义上与文本互补的视觉信息,Stream-Omni 使用序列维度拼接方法实现视觉-文本对齐。而对于在语义上与文本一致的语音信息,Stream-Omni 引入了基于连接时序分类(CTC)的层维度映射方法来实现语音-文本对齐。通过这种方式,Stream-Omni 可以在较少的数据量下(尤其是语音数据)实现模态对齐,从而将文本处理能力迁移到其他模态。各种基准测试实验表明,Stream-Omni 在视觉理解、语音交互以及基于视觉的语音交互任务中表现出色。得益于层维度映射技术,Stream-Omni 在进行语音交互时能够同时提供中间文本输出(如自动语音识别转录和模型响应),为用户提供全面的多模态体验。