Visual Question Answering Vqa On Infoseek

Metrics

Accuracy

Results

Performance results of various models on this benchmark

		Paper Title	Code
RA-VQAv2 w/ PreFLMR	30.65	PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
PaLI-X	24	PaLI-X: On Scaling up a Multilingual Vision and Language Model
CLIP + FiD	20.9	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
CLIP + PaLM (540B)	20.4	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
PaLI	19.7	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
BLIP2	14.6	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
InstructBLIP	14.5	-

0 of 7 row(s) selected.

Visual Question Answering Vqa On Infoseek

Metrics

Accuracy

Results

Performance results of various models on this benchmark

		Paper Title	Code
RA-VQAv2 w/ PreFLMR	30.65	PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
PaLI-X	24	PaLI-X: On Scaling up a Multilingual Vision and Language Model
CLIP + FiD	20.9	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
CLIP + PaLM (540B)	20.4	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
PaLI	19.7	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
BLIP2	14.6	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
InstructBLIP	14.5	-

0 of 7 row(s) selected.

Visual Question Answering Vqa On Infoseek | SOTA | HyperAI超神经