HyperAIHyperAI

Command Palette

Search for a command to run...

让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

摘要

我们研究了视觉对话中的多轮响应生成问题,其中响应是根据基于图像的对话历史生成的。给定一个三元组:一张图像、问答历史以及当前的问题,现有的所有方法都遵循监督学习范式下的编解码(即编码器-解码器)模式:多模态编码器将三元组编码为特征向量,然后将其输入到解码器中生成当前答案,该过程由真实标签进行监督。然而,这种传统的监督学习并未考虑不完美历史的影响,这违背了视觉对话的对话性质,从而使得编解码器更倾向于学习历史偏差而非上下文推理。为此,受强化学习中演员-评论家策略梯度的启发,我们提出了一种新的训练范式——历史优势序列训练(HAST)。具体而言,我们在历史中故意引入错误答案,以获得不利的评论,并观察历史错误如何影响编解码器未来的行为。这一影响通过计算“历史优势”来量化,“历史优势”是指从真实历史的真实奖励中减去不利评论所得到的值。此外,为了使编解码器对历史更加敏感,我们提出了一种新的注意力网络——历史感知协同注意网络(HACAN),该网络可以通过HAST有效训练。在三个基准数据集上的实验结果表明:VisDial v0.9&v1.0 和 GuessWhat?! 上提出的HAST策略始终优于最先进的监督学习方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供