Command Palette
Search for a command to run...
视觉问答
Visual Question Answering (VQA) 是计算机视觉领域的子任务,旨在通过多模态分析,使机器能够理解图像内容并准确回答与图像相关的问题。该任务的核心目标是融合视觉和语言信息,提升机器的场景理解能力。VQA 在智能辅助系统、图像搜索和内容审核等应用场景中具有重要价值,能够实现更自然的人机交互体验。
MM-Vet
GPT-4V
MM-Vet v2
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
BenchLMM
GPT-4V
MMBench
CuMo-7B
VQA v2 val
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
VQA v2 test-std
OFA
MSVD-QA
MMHal-Bench
VQA v2
Emu-I *
PlotQA-D1
PlotQA-D2
MapEval-Visual
VizWiz
Emu-I *
COCO Visual Question Answering (VQA) real images 2.0 open ended
MM-Vet (w/o External Tools)
Emu-14B
VisualMRC
LayoutT5 (Large)
TextVQA test-standard
PromptCap
GQA
V*bench
IVM-Enhanced GPT4-V
GRIT
OFA
EarthVQA
SOBA
CLEVR
NeSyCoCo Neuro-Symbolic
AMBER
RLAIF-V 12B
MS COCO