HyperAI超神经

Reading Comprehension On Muserc

评估指标

Average F1
EM

评测结果

各个模型在此基准测试上的表现结果

比较表格
模型名称Average F1EM
russiansuperglue-a-russian-language0.587 0.242
russiansuperglue-a-russian-language0.8060.42
模型 30.6870.278
模型 40.760.427
unreasonable-effectiveness-of-rule-based0.450.071
模型 60.7690.446
模型 70.6460.327
mt5-a-massively-multilingual-pre-trained-text0.8440.543
模型 90.830.561
模型 100.7420.399
模型 110.7290.333
模型 120.6730.364
模型 130.706 0.308
模型 140.6420.319
模型 150.9410.819
模型 160.639 0.239
模型 170.8150.537
模型 180.6530.221
unreasonable-effectiveness-of-rule-based0.6710.237
模型 200.740.546
unreasonable-effectiveness-of-rule-based0.0 0.0
模型 220.711 0.324