Command Palette
Search for a command to run...
Ryota Tanaka Kyosuke Nishida Sen Yoshida

摘要
近年来,机器阅读理解研究主要聚焦于文本层面的理解,但尚未达到人类对现实世界文档视觉布局与内容理解的水平。在本研究中,我们提出一个全新的视觉机器阅读理解数据集,命名为VisualMRC。该数据集要求机器在给定问题和文档图像的前提下,阅读并理解图像中的文本内容,以自然语言形式回答问题。与现有包含图像中文本的视觉问答(VQA)数据集相比,VisualMRC更侧重于提升模型在自然语言理解与生成方面的能力。该数据集包含超过3万对问题与摘要式答案,对应1万多个来自网页多个领域的文档图像。此外,我们还提出一种新模型,该模型在大规模文本语料上预训练的序列到序列模型基础上进行扩展,能够有效融合文档的视觉布局与内容信息。在VisualMRC上的实验结果表明,该模型在性能上优于基础的序列到序列模型以及当前最先进的VQA模型,但在多数自动评估指标上,其表现仍不及人类水平。该数据集将有力推动视觉与语言理解融合方向的研究进展。
代码仓库
nttmdlab-nlp/VisualMRC
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-visualmrc | LayoutT5 (Large) | CIDEr: 364.2 |