Llm
主流 AI 模型在各任务上的性能指标比较,展示最前沿的技术水平
AI 模型性能基准
主流 AI 模型在各任务上的性能指标比较,展示最前沿的技术水平
multimodal
78 篇论文 | 0 个基准测试
reasoning
60 篇论文 | 0 个基准测试
understanding
47 篇论文 | 0 个基准测试
other
35 篇论文 | 0 个基准测试
knowledge
27 篇论文 | 0 个基准测试
agent
24 篇论文 | 0 个基准测试
code
20 篇论文 | 0 个基准测试
math
20 篇论文 | 0 个基准测试
language
19 篇论文 | 0 个基准测试
examination
17 篇论文 | 0 个基准测试
safety
17 篇论文 | 0 个基准测试
strong reasoning
15 篇论文 | 0 个基准测试
long-context
10 篇论文 | 0 个基准测试
creation
6 篇论文 | 0 个基准测试
instruct
5 篇论文 | 0 个基准测试