3 个月前

VisualMRC：文档图像上的机器阅读理解

Ryota Tanaka Kyosuke Nishida Sen Yoshida

摘要

近年来，机器阅读理解研究主要聚焦于文本层面的理解，但尚未达到人类对现实世界文档视觉布局与内容理解的水平。在本研究中，我们提出一个全新的视觉机器阅读理解数据集，命名为VisualMRC。该数据集要求机器在给定问题和文档图像的前提下，阅读并理解图像中的文本内容，以自然语言形式回答问题。与现有包含图像中文本的视觉问答（VQA）数据集相比，VisualMRC更侧重于提升模型在自然语言理解与生成方面的能力。该数据集包含超过3万对问题与摘要式答案，对应1万多个来自网页多个领域的文档图像。此外，我们还提出一种新模型，该模型在大规模文本语料上预训练的序列到序列模型基础上进行扩展，能够有效融合文档的视觉布局与内容信息。在VisualMRC上的实验结果表明，该模型在性能上优于基础的序列到序列模型以及当前最先进的VQA模型，但在多数自动评估指标上，其表现仍不及人类水平。该数据集将有力推动视觉与语言理解融合方向的研究进展。

代码仓库

nttmdlab-nlp/VisualMRC

官方

GitHub 中提及

基准测试

基准	方法	指标
visual-question-answering-on-visualmrc	LayoutT5 (Large)	CIDEr: 364.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette