HyperAI超神经
4 days ago

ScaleCap:通过双模态去偏实现推理时可扩展的图像描述生成

Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
ScaleCap:通过双模态去偏实现推理时可扩展的图像描述生成
摘要

本文介绍了ScaleCap,一种在推理阶段可扩展的图像描述生成策略,能够生成全面且详细的图像描述。高质量图像描述的主要挑战在于大规模视觉语言模型(LVLMs)的固有偏差:多模态偏差导致描述颗粒度不平衡,对某些元素进行详细描述而对其他元素则仅作简略提及;语言偏差导致对不存在对象的虚假描述。为了解决这些问题,我们提出了一种可扩展的去偏图像描述策略,该策略通过增加推理预算来不断丰富和校准描述内容。具体而言,我们提出了两个创新组件:启发式问答和对比句评价。前者根据图像生成内容特定的问题并回答这些问题,逐步将相关信息注入到描述中;后者利用句子级别的离线对比解码有效识别并消除由语言偏差引起的虚假描述。随着推理成本的增加,ScaleCap会提出更多的启发式问题以逐步捕捉额外的视觉细节,从而生成更加准确、平衡和信息丰富的描述。大量的模态对齐实验验证了ScaleCap的有效性。使用ScaleCap标注45万张图像并用于LVLM预训练,在11个广泛使用的基准测试中均取得了性能提升。此外,ScaleCap在两个附加任务中展示了其生成描述的高度丰富性和保真度:在视觉问答(VQA)任务中用描述替换图像,以及从描述重建图像以评估语义覆盖范围。代码可在https://github.com/Cooperx521/ScaleCap 获取。