HyperAI超神经

Multiple Choice Qa

基准测试列表

该任务相关的所有基准测试列表

mmlu-elementary-mathematics
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-college-biology
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-high-school-biology
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-college-chemistry
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-high-school-chemistry
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-college-computer-science
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-high-school-mathematics
最佳模型: GAL 120B (zero-shot)

评估指标

查看详情
mmlu-electrical-engineer
最佳模型: GAL 120B (zero-shot)

评估指标

查看详情
mmlu-formal-logic
最佳模型: Gopher (few-shot, k=5)

评估指标

查看详情
medmcqa
最佳模型: Meditron-70B (CoT + SC)

评估指标

查看详情
frenchmedmcqa
最佳模型: CamemBERT

评估指标

查看详情
mmlu-anatomy
最佳模型: Med-PaLM 2 (ER)

评估指标

查看详情
mmlu-abstract-algebra
最佳模型: GAL 30B (zero-shot)

评估指标

查看详情
mmlu-econometrics
最佳模型: Gopher (few-shot, k=5)

评估指标

查看详情
mmlu-high-school-computer-science
最佳模型: GAL 120B (zero-shot)

评估指标

查看详情
mmlu-machine-learning
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
mmlu-college-mathematics
最佳模型: GAL 120B (zero-shot)

评估指标

查看详情
mmlu-astronomy
最佳模型: Chinchilla (few-shot, k=5)

评估指标

查看详情
indicglue-wstp-pa

评估指标

查看详情
mmlu-college-physics

评估指标

查看详情
mmlu-high-school-physics

评估指标

查看详情
mmlu-high-school-statistics

评估指标

查看详情
mmlu-clinical-knowledge

评估指标

查看详情
mmlu-professional-medicine

评估指标

查看详情
mmlu-college-medicine

评估指标

查看详情
big-bench-hyperbaton

评估指标

查看详情
big-bench-movie-recommendation

评估指标

查看详情
big-bench-navigate

评估指标

查看详情
big-bench-ruin-names

评估指标

查看详情
big-bench-novel-concepts

评估指标

查看详情
mmlu-medical-genetics

评估指标

查看详情