HyperAI超神经
Back to Headlines

阿里巴巴与南京大学联手推出 WINGS:解决多模态大语言模型仅文本遗忘难题

2 days ago

大型语言模型(LLMs)的能力已经从处理纯文本扩展到多模态应用,特别是图文字结合的场景,这使得AI系统在互动性和直观性上有了显著提升。多模态大型语言模型(MLLMs)能够解释图像、回答与图片相关的问题,并进行包含文本和图片的对话,这些能力使其在教育、内容生成和交互式助手等领域越来越有价值。然而,图像数据的加入带来了一个新问题:当MLLMs被训练在混合图像和文本的数据集上时,它们往往会在处理纯文本任务时表现不佳,这种现象被称为“文本遗忘”。其原因是视觉标记的插入转移了模型对文本的注意力,导致模型倾向于处理与图像相关的内容,而削弱了纯粹依赖语言理解的能力。 目前,针对这一问题,研究者们提出了一些缓解策略,例如在训练过程中重新引入大量纯文本数据,或交替进行纯文本和多模态微调。还有些方法通过添加适配层或基于提示的微调来改善模型的文本理解能力。不过,这些解决方案往往增加了训练成本,复杂化了推理过程中的切换逻辑,甚至无法完全恢复模型的文本处理能力。主要问题在于模型的注意力机制会随着图像标记的引入而发生变化,影响其对文本的处理。 为了解决这一困境,阿里巴巴集团的AI业务团队与南京大学的研究人员合作开发了一种名为WINGS的新方法。WINGS通过在每一层的MLLM中添加视觉学习器和文本学习器来实现目标。这两个学习器平行工作,与模型的核心注意力机制协同,类似为注意力层安装了“翅膀”。通过一个路由组件控制每个学习器获得的关注程度,该架构可以根据当前的令牌组合动态平衡视觉和文本信息的处理。 WINGS还引入了低秩残差注意力(LoRRA)机制,既保持了计算的轻量化,又使学习器能够捕捉到特定模式(视觉或文本)的关键信息。在训练的第一阶段,仅激活视觉学习器以对齐图像特征;第二阶段则同时训练视觉和文本学习器,并使用注意力权重分配模块来协调两者的工作。每个学习器都使用高效的注意力块与图像或周围文本互动,最后与主模型的输出结合起来,确保视觉注意力不会压倒文本理解。 在性能测试中,WINGS表现出色。在MMLU数据集上的纯文本任务得分达到了60.53%,比相似基线模型提高了9.70个百分点。在CMMLU等其他数据集上,WINGS同样表现出显著优势,如在Race-High推理任务中取得11.9个百分点的提升,在WSC任务中提升了11.12个百分点。在多模态基准测试如MMMU-VAL中,WINGS也实现了4.78个百分点的进步。它在IIT基准测试中处理混合文本和图像的多轮对话方面,表现得更为出色,优于同级别其他开源的MLLMs。 总体而言,WINGS通过并行设计视觉和文本学习器,成功克服了灾难性的纯文本遗忘问题,增强了模型的可视理解和平衡性,使其成为一种更高效且泛化的多模态模型。这一成果不仅推进了多模态AI技术的发展,也为未来的应用场景提供了更广阔的可能性。 业内专家普遍认为,WINGS的提出是一个重要的突破,特别是在多模态模型的实际应用中,如何保持对文本信息的高敏感度一直是挑战之一。这项研究不仅展示了阿里巴巴和南京大学在AI领域的技术创新能力,也为多模态AI技术的进一步发展铺平了道路。阿里巴巴集团作为全球领先的科技企业,一直致力于推动AI技术的研究和应用,WINGS的研发再次证明了其在前沿技术探索方面的实力。

Related Links