HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
视觉问答 (VQA)

视觉问答 (VQA)

Visual Question Answering (VQA) 是计算机视觉领域的一项任务，旨在通过自然语言回答关于图像的问题。该任务的核心目标是使机器能够理解图像内容，并以准确、连贯的语言形式提供答案。VQA 在人机交互、智能辅助和内容理解等方面具有重要应用价值，能够显著提升机器的视觉认知能力。

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
视觉问答 (VQA)

视觉问答 (VQA)

Visual Question Answering (VQA) 是计算机视觉领域的一项任务，旨在通过自然语言回答关于图像的问题。该任务的核心目标是使机器能够理解图像内容，并以准确、连贯的语言形式提供答案。VQA 在人机交互、智能辅助和内容理解等方面具有重要应用价值，能够显著提升机器的视觉认知能力。

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili