HyperAIHyperAI

Command Palette

Search for a command to run...

MMTM:用于CNN融合的多模态迁移模块

Hamid Reza Vaezi Joze Amirreza Shaban Michael L. Iuzzolino Kazuhito Koishida

摘要

在晚期融合(late fusion)方法中,各模态分别通过独立的单模态卷积神经网络(CNN)流进行处理,最终在输出阶段对各模态的得分进行融合。由于其结构简单,晚期融合至今仍是众多前沿多模态应用中的主流方法。本文提出一种简单的神经网络模块,用于在卷积神经网络中有效利用多模态知识。该模块名为多模态迁移模块(Multimodal Transfer Module, MMTM),可灵活嵌入特征层次的不同层级,实现渐进式的模态融合。MMTM通过压缩(squeeze)与激励(excitation)操作,利用多模态之间的互补信息,对每个CNN流中的通道级特征进行重新校准。与现有的中间融合方法相比,所提模块可适用于具有不同空间维度的卷积层中的特征模态融合。此外,该方法的另一优势在于,其可几乎不改变原有单模态分支网络结构地进行添加,从而允许各分支使用已有的预训练权重进行初始化。实验结果表明,所提出的框架显著提升了知名多模态网络的识别准确率。在涵盖动态手势识别、语音增强以及基于RGB图像与骨骼关节点的动作识别等任务的四个数据集上,本方法均取得了当前最优或具有竞争力的性能表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供