Question Answering
基准测试列表
该任务相关的所有基准测试列表
jd-product-question-answer
最佳模型: PAAG
评估指标
查看详情
aristo-kaggle-allen-ai-8th-grade-questions
最佳模型: Cardal
评估指标
查看详情
aviationqa
最佳模型: KGT5
评估指标
查看详情
babi
最佳模型: STM
评估指标
查看详情
bioasq
最佳模型: BioLinkBERT (large)
评估指标
查看详情
blurb
最佳模型: BioLinkBERT (large)
评估指标
查看详情
boolq
最佳模型: Gemma-7B
评估指标
查看详情
casehold
最佳模型: Custom Legal-BERT
评估指标
查看详情
catbabi-lm-mode
最佳模型: Fast Weight Memory
评估指标
查看详情
catbabi
最佳模型: Fast Weight Memory
评估指标
查看详情
chaii-hindi-and-tamil-question-answering
最佳模型: MuCoT
评估指标
查看详情
children-s-book-test
最佳模型: NSE
评估指标
查看详情
clicr
最佳模型: Gated-Attention Reader
评估指标
查看详情
codah
最佳模型: G-DAUG-Combo + RoBERTa-Large
评估指标
查看详情
complex-cronquestions
最佳模型: SubGTR
评估指标
查看详情
complexquestions
最佳模型: WebQA
评估指标
查看详情
complexwebquestions
最佳模型: TOME-2
评估指标
查看详情
conditionalqa
最佳模型: FiD
评估指标
查看详情
copa
最佳模型: PaLM 540B (finetuned)
评估指标
查看详情
coqa
最佳模型: GPT-3 175B (few-shot, k=32)
评估指标
查看详情
drop-test
最佳模型: QDGAT (ensemble)
评估指标
查看详情
duorc
最佳模型: Vector Database (ChromaDB)
评估指标
查看详情
fairytaleqa
最佳模型: BART fine-tuned on FairytaleQA
评估指标
查看详情
finqa
最佳模型: ELASTIC (RoBERTa-large)
评估指标
查看详情
geoquestions1089
最佳模型: GeoQA2
评估指标
查看详情
graphquestions
最佳模型: ChatGPT
评估指标
查看详情
hotpotqa
最佳模型: Beam Retrieval
评估指标
查看详情
hotpotqa-beir
最佳模型: BM25+CE
评估指标
查看详情
hybridqa
最佳模型: MAFiD
评估指标
查看详情
jaquad
最佳模型: BERT-Japanese
评估指标
查看详情
mapeval-api
最佳模型: Claude-3.5-Sonnet (ReAct)
评估指标
查看详情
mathematics
最佳模型: TP-Transformer
评估指标
查看详情
mctest-160
最佳模型: syntax, frame, coreference, and word embedding features
评估指标
查看详情
medmcqa-dev
最佳模型: MedMobile (3.8B)
评估指标
查看详情
medqa-usmle
最佳模型: DRAGON + BioLinkBERT
评估指标
查看详情
metaqa
最佳模型: T5-small+prolog
评估指标
查看详情
mrqa-out-of-domain
最佳模型: RGX
评估指标
查看详情
multirc
最佳模型: PaLM 540B (finetuned)
评估指标
查看详情
multispanqa
最佳模型: RoBERTa-large Tagger + LIQUID (Ensemble)
评估指标
查看详情
narrativeqa
最佳模型: Masque (NarrativeQA + MS MARCO)
评估指标
查看详情
natural-questions
最佳模型: Atlas (full, Wiki-dec-2018 index)
评估指标
查看详情
natural-questions-long
最佳模型: DensePhrases
评估指标
查看详情
naturalqa
最佳模型: DPR
评估指标
查看详情
newsqa
最佳模型: OpenAI/o3-mini-2025-01-31-high
评估指标
查看详情
obqa
最佳模型: FLAN 137B (zero-shot)
评估指标
查看详情
ott-qa
最佳模型: Fusion Retriever+ETC
评估指标
查看详情
peerqa
最佳模型: GPT-4o-2024-08-06-128k
评估指标
查看详情
piqa
最佳模型: LLaMA 65B (0-shot)
评估指标
查看详情
popqa
最佳模型: SelfRAG-7b
评估指标
查看详情
pubchemqa
最佳模型: BioMedGPT-10B
评估指标
查看详情
pubmedqa
最佳模型: BioGPT-Large(1.5B)
评估指标
查看详情
qasent
最佳模型: Attentive LSTM
评估指标
查看详情
qasper
最佳模型: Longformer Encoder Decoder (base)
评估指标
查看详情
quac
最佳模型: FlowQA (single model)
评估指标
查看详情
quora-question-pairs
最佳模型: DeBERTa (large)
评估指标
查看详情
recipeqa
最佳模型: multimodal+LXMERT+ConstrainedMaxPooling
评估指标
查看详情
reclor
最佳模型: XLNet-large
评估指标
查看详情
semevalcqa
最佳模型: HyperQA
评估指标
查看详情
social-iqa
最佳模型: LLaMA 65B (zero-shot)
评估指标
查看详情
sqa3d
最佳模型: CREMA
评估指标
查看详情
squad1-1
最佳模型: LUKE
评估指标
查看详情
squad1-1-dev
最佳模型: T5-11B
评估指标
查看详情
squad2-0-dev
最佳模型: XLNet (single model)
评估指标
查看详情
stepgame
最佳模型: TP-MANN
评估指标
查看详情
story-cloze
最佳模型: Neo-6B (QA + WS)
评估指标
查看详情
storycloze
最佳模型: BLOOMZ
评估指标
查看详情
strategyqa
最佳模型: PaLM 2 (few-shot, CoT, SC)
评估指标
查看详情
swag
最佳模型: DeBERTaV3large
评估指标
查看详情
tat-qa
最佳模型: TagOp
评估指标
查看详情
tempquestions
最佳模型: QAap
评估指标
查看详情
torque
最佳模型: ECONET
评估指标
查看详情
trecqa
最佳模型: TANDA DeBERTa-V3-Large + ALL
评估指标
查看详情
triviaqa
最佳模型: PaLM 2-L (one-shot)
评估指标
查看详情
truthfulqa
最佳模型: CoA
评估指标
查看详情
tweetqa
最佳模型: ByT5
评估指标
查看详情
vnhsge-civic
最佳模型: Bing Chat
评估指标
查看详情
webquestions
最佳模型: FiE+PAQ
评估指标
查看详情
webquestionssp
最佳模型: ChatGPT
评估指标
查看详情
wikihop
最佳模型: BigBird-etc
评估指标
查看详情
wikiqa
最佳模型: TANDA-RoBERTa (ASNQ, WikiQA)
评估指标
查看详情
wikitablequestions
最佳模型: TabSQLify (col+row)
评估指标
查看详情
yahoocqa
最佳模型: sMIM (1024) +
评估指标
查看详情
adversarial-qa
评估指标
查看详情
agi-eval
评估指标
查看详情
ai2-kaggle-dataset
评估指标
查看详情
bamboogle
评估指标
查看详情
bbh
评估指标
查看详情
chegeka
评估指标
查看详情
cnn-daily-mail
评估指标
查看详情
coco-visual-question-answering-vqa-real-1
评估指标
查看详情
convfinqa
评估指标
查看详情
cronquestions
评估指标
查看详情
danetqa
评估指标
查看详情
drop
评估指标
查看详情
efficientqa-dev
评估指标
查看详情
efficientqa-test
评估指标
查看详情
egotaskqa
评估指标
查看详情
fever
评估指标
查看详情
fiqa-2018-beir
评估指标
查看详情
fquad
评估指标
查看详情
friendsqa
评估指标
查看详情
hellaswag
评估指标
查看详情
kilt-eli5
评估指标
查看详情
kqa-pro
评估指标
查看详情
mapeval-textual
评估指标
查看详情
mctest-500
评估指标
查看详情
medturkquad-medical-turkish-question
评估指标
查看详情
mmlu
评估指标
查看详情
molweni
评估指标
查看详情
mrqa-2019
评估指标
查看详情
ms-marco
评估指标
查看详情
muld-hotpotqa
评估指标
查看详情
muld-narrativeqa
评估指标
查看详情
multiq
评估指标
查看详情
multitq
评估指标
查看详情
next-qa-open-ended-videoqa
评估指标
查看详情
nq-beir
评估指标
查看详情
openbookqa
评估指标
查看详情
quality
评估指标
查看详情
quasart-t
评估指标
查看详情
race
评估指标
查看详情
reverb
评估指标
查看详情
ruopenbookqa
评估指标
查看详情
sberquad
评估指标
查看详情
scde
评估指标
查看详情
schizzosquad
评估指标
查看详情
simplequestions
评估指标
查看详情
squad
评估指标
查看详情
squad-adversarial
评估指标
查看详情
squad-v2
评估指标
查看详情
squad2-0
评估指标
查看详情
squadshifts-amazon
评估指标
查看详情
squadshifts-new-wiki
评估指标
查看详情
squadshifts-nyt
评估指标
查看详情
squadshifts-reddit
评估指标
查看详情
tempqa-wd
评估指标
查看详情
timequestions
评估指标
查看详情
tiq
评估指标
查看详情
uniprotqa
评估指标
查看详情
vnhsge-biology
评估指标
查看详情
vnhsge-chemistry
评估指标
查看详情
vnhsge-english
评估指标
查看详情
vnhsge-geography
评估指标
查看详情
vnhsge-history
评估指标
查看详情
vnhsge-literature
评估指标
查看详情
vnhsge-mathematics-1
评估指标
查看详情
vnhsge-physics
评估指标
查看详情
websrc
评估指标
查看详情
wikisql
评估指标
查看详情