6 个月前

Xinzhe Han Shuhui Wang Chi Su Qingming Huang Qi Tian

摘要

语言偏差是视觉问答（Visual Question Answering, VQA）领域中的一个关键问题，模型常常依赖数据集中的语言偏差做出最终决策，而忽视图像信息。这导致模型在分布外（out-of-distribution）数据上性能显著下降，并且缺乏充分的视觉可解释性。通过对现有鲁棒VQA方法的实验分析，我们指出VQA中的语言偏差主要源于两个方面：分布偏差（distribution bias）和捷径偏差（shortcut bias）。为此，我们提出一种新的去偏框架——贪婪梯度集成（Greedy Gradient Ensemble, GGE），该框架通过集成多个带有偏差的模型来实现无偏基础模型的学习。GGE采用贪婪策略，优先促使各偏差模型过度拟合于偏差数据分布，从而迫使基础模型更加关注那些难以被偏差模型正确处理的困难样本。实验结果表明，所提方法能够更有效地利用视觉信息，在无需额外标注的情况下，在VQA-CP数据集上实现了当前最优的诊断性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Xinzhe Han Shuhui Wang Chi Su Qingming Huang Qi Tian

摘要

语言偏差是视觉问答（Visual Question Answering, VQA）领域中的一个关键问题，模型常常依赖数据集中的语言偏差做出最终决策，而忽视图像信息。这导致模型在分布外（out-of-distribution）数据上性能显著下降，并且缺乏充分的视觉可解释性。通过对现有鲁棒VQA方法的实验分析，我们指出VQA中的语言偏差主要源于两个方面：分布偏差（distribution bias）和捷径偏差（shortcut bias）。为此，我们提出一种新的去偏框架——贪婪梯度集成（Greedy Gradient Ensemble, GGE），该框架通过集成多个带有偏差的模型来实现无偏基础模型的学习。GGE采用贪婪策略，优先促使各偏差模型过度拟合于偏差数据分布，从而迫使基础模型更加关注那些难以被偏差模型正确处理的困难样本。实验结果表明，所提方法能够更有效地利用视觉信息，在无需额外标注的情况下，在VQA-CP数据集上实现了当前最优的诊断性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供