HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
问答

问答

Question Answering是自然语言处理领域的重要任务，旨在通过计算机系统自动回答用户提出的问题。该任务可细分为社区问答和知识库问答等子任务，评估指标主要包括EM和F1分数。当前热门的基准数据集有SQuAD、HotPotQA、bAbI、TriviaQA和WikiQA等。近年来，T5和XLNet等模型在这一领域表现出色，推动了问答系统的准确性和实用性。

GPT-3 175B (0-shot)

PaLM 540B (finetuned)

Natural Questions

Atlas (full, Wiki-dec-2018 index)

Memory Networks (ensemble)

PubMedBERT uncased

DRAGON + BioLinkBERT

TANDA-RoBERTa (ASNQ, WikiQA)

LLaMA 65B (zero-shot)

Quora Question Pairs

DeBERTa (large)

CNN / Daily Mail

QDGAT (ensemble)

OpenAI/o3-mini-2025-01-31-high

Natural Questions (long)

XLNet (single model)

TANDA DeBERTa-V3-Large + ALL

PaLM 2 (few-shot, CoT, SC)

Masque (NarrativeQA + MS MARCO)

BERT Large Augmented (single model)

FLAN 137B (zero-shot)

Children's Book Test

PubMedBERT uncased

ScanQA (w/ auxiliary loss)

Neo-6B (QA + WS)

ELASTIC (RoBERTa-large)

NExT-QA (Open-ended VideoQA)

GPT-4o-2024-08-06-128k

AI2 Kaggle Dataset

BioLinkBERT (large)

catbAbI QA-mode

Fast Weight Memory

catbAbI LM-mode

Fast Weight Memory

Complex-CronQuestions

BART fine-tuned on FairytaleQA

FiQA-2018 (BEIR)

HotpotQA (BEIR)

Custom Legal-BERT

Vector Database (ChromaDB)

Mathematics Dataset

Fusion Retriever+ETC

Aristo Kaggle Allen AI 8th grade questions

Gated-Attention Reader

G-DAUG-Combo + RoBERTa-Large

COMPLEXQUESTIONS

GeoQuestions1089

Claude-3.5-Sonnet (ReAct)

MedTurkQuAD: Medical Turkish Question-Answering Dataset

MuLD (HotpotQA)

MuLD (NarrativeQA)

FlowQA (single model)

VNHSGE-Chemistry

VNHSGE-Geography

VNHSGE-Literature

VNHSGE Mathematics

WikiTableQuestions

TabSQLify (col+row)

ChAII - Hindi and Tamil Question Answering

COCO Visual Question Answering (VQA) real images 1.0 open ended

ComplexWebQuestions

EfficientQA dev

EfficientQA test

JD Product Question Answer

MapEval-Textual

syntax, frame, coreference, and word embedding features

MedMobile (3.8B)

T5-small+prolog

MRQA out-of-domain

RoBERTa-large Tagger + LIQUID (Ensemble)

Longformer Encoder Decoder (base)

multimodal+LXMERT+ConstrainedMaxPooling

SimpleQuestions

squad_adversarial

squadshifts amazon

squadshifts new_wiki

squadshifts nyt

squadshifts reddit

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
问答

问答

Question Answering是自然语言处理领域的重要任务，旨在通过计算机系统自动回答用户提出的问题。该任务可细分为社区问答和知识库问答等子任务，评估指标主要包括EM和F1分数。当前热门的基准数据集有SQuAD、HotPotQA、bAbI、TriviaQA和WikiQA等。近年来，T5和XLNet等模型在这一领域表现出色，推动了问答系统的准确性和实用性。

GPT-3 175B (0-shot)

PaLM 540B (finetuned)

Natural Questions

Atlas (full, Wiki-dec-2018 index)

Memory Networks (ensemble)

PubMedBERT uncased

DRAGON + BioLinkBERT

TANDA-RoBERTa (ASNQ, WikiQA)

LLaMA 65B (zero-shot)

Quora Question Pairs

DeBERTa (large)

CNN / Daily Mail

QDGAT (ensemble)

OpenAI/o3-mini-2025-01-31-high

Natural Questions (long)

XLNet (single model)

TANDA DeBERTa-V3-Large + ALL

PaLM 2 (few-shot, CoT, SC)

Masque (NarrativeQA + MS MARCO)

BERT Large Augmented (single model)

FLAN 137B (zero-shot)

Children's Book Test

PubMedBERT uncased

ScanQA (w/ auxiliary loss)

Neo-6B (QA + WS)

ELASTIC (RoBERTa-large)

NExT-QA (Open-ended VideoQA)

GPT-4o-2024-08-06-128k

AI2 Kaggle Dataset

BioLinkBERT (large)

catbAbI QA-mode

Fast Weight Memory

catbAbI LM-mode

Fast Weight Memory

Complex-CronQuestions

BART fine-tuned on FairytaleQA

FiQA-2018 (BEIR)

HotpotQA (BEIR)

Custom Legal-BERT

Vector Database (ChromaDB)

Mathematics Dataset

Fusion Retriever+ETC

Aristo Kaggle Allen AI 8th grade questions

Gated-Attention Reader

G-DAUG-Combo + RoBERTa-Large

COMPLEXQUESTIONS

GeoQuestions1089

Claude-3.5-Sonnet (ReAct)

MedTurkQuAD: Medical Turkish Question-Answering Dataset

MuLD (HotpotQA)

MuLD (NarrativeQA)

FlowQA (single model)

VNHSGE-Chemistry

VNHSGE-Geography

VNHSGE-Literature

VNHSGE Mathematics

WikiTableQuestions

TabSQLify (col+row)

ChAII - Hindi and Tamil Question Answering

COCO Visual Question Answering (VQA) real images 1.0 open ended

ComplexWebQuestions

EfficientQA dev

EfficientQA test

JD Product Question Answer

MapEval-Textual

syntax, frame, coreference, and word embedding features

MedMobile (3.8B)

T5-small+prolog

MRQA out-of-domain

RoBERTa-large Tagger + LIQUID (Ensemble)

Longformer Encoder Decoder (base)

multimodal+LXMERT+ConstrainedMaxPooling

SimpleQuestions

squad_adversarial

squadshifts amazon

squadshifts new_wiki

squadshifts nyt

squadshifts reddit

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili