Text Generation
基准测试列表
该任务相关的所有基准测试列表
chinese-poems
最佳模型: RankGAN
评估指标
查看详情
cmu-se
最佳模型: STWGAN-GP
评估指标
查看详情
cnn-daily-mail-1
最佳模型: PALM
评估指标
查看详情
coco-captions
最佳模型: LeakGAN
评估指标
查看详情
commongen
最佳模型: UniLM
评估指标
查看详情
emnlp2017-wmt
最佳模型: LeakGAN
评估指标
查看详情
harmfulqa
最佳模型: GPT-4
评估指标
查看详情
one-billion-word
最佳模型: WGANGP + DGflow
评估指标
查看详情
redial
最佳模型: UniCRS
评估指标
查看详情
rocstories
最佳模型: Beam search + A*esque (sample)
评估指标
查看详情
yahoo-questions
最佳模型: Aggressive VAE
评估指标
查看详情
adgen
评估指标
查看详情
ai2-reasoning-challenge-25-shot
评估指标
查看详情
ai2-reasoning-challenge-tr
评估指标
查看详情
alpaca-eval-pt
评估指标
查看详情
alpacaeval
评估指标
查看详情
arc-challenge-pt
评估指标
查看详情
assin2-rte
评估指标
查看详情
assin2-sts
评估指标
查看详情
bbh-3-shot
评估指标
查看详情
bluex-no-images
评估指标
查看详情
calame-pt
评估指标
查看详情
censorship-0-shot
评估指标
查看详情
creativity-0-shot
评估指标
查看详情
crimestats
评估指标
查看详情
csl
评估指标
查看详情
czech-restaurant-information
评估指标
查看详情
dailydialog
评估指标
查看详情
dart
评估指标
查看详情
drop-3-shot
评估指标
查看详情
enem-challenge-no-images
评估指标
查看详情
faquad-nli
评估指标
查看详情
gpqa-0-shot
评估指标
查看详情
gsm8k-5-shot
评估指标
查看详情
gsm8k-tr
评估指标
查看详情
hatebr-binary
评估指标
查看详情
hellaswag-10-shot
评估指标
查看详情
hellaswag-pt
评估指标
查看详情
hellaswag-tr
评估指标
查看详情
humanness-0-shot
评估指标
查看详情
ifeval-0-shot
评估指标
查看详情
internet
评估指标
查看详情
lambada-pt
评估指标
查看详情
lcsts
评估指标
查看详情
ldc2016e25
评估指标
查看详情
math-lvl-5-4-shot
评估指标
查看详情
mmlu-5-shot
评估指标
查看详情
mmlu-pro-5-shot
评估指标
查看详情
mmlu-tr
评估指标
查看详情
mt-bench
评估指标
查看详情
mt-bench-jp
评估指标
查看详情
musr-0-shot
评估指标
查看详情
oab-exams
评估指标
查看详情
open-mindedness-0-shot
评估指标
查看详情
openwebtext
评估指标
查看详情
polcontro
评估指标
查看详情
pt-hate-speech-binary
评估指标
查看详情
sciq
评估指标
查看详情
stories-jokes
评估指标
查看详情
talking-0-shot
评估指标
查看详情
truthfulqa
评估指标
查看详情
truthfulqa-0-shot
评估指标
查看详情
truthfulqa-pt
评估指标
查看详情
truthfulqa-tr
评估指标
查看详情
tweetsentbr
评估指标
查看详情
unruly
评估指标
查看详情
w-10
评估指标
查看详情
wikitext-103
评估指标
查看详情
winogrande-5-shot
评估指标
查看详情
winogrande-tr
评估指标
查看详情
world-knowledge-0-shot
评估指标
查看详情