Code Generation
基准测试列表
该任务相关的所有基准测试列表
android-repos
最佳模型: Entity Type Model
评估指标
查看详情
apps
最佳模型: MapCoder APPS-150-cherrypicked (GPT-4)
评估指标
查看详情
bigcodebench-instruct
最佳模型: GPT-4o-2024-05-13
评估指标
查看详情
codecontests
最佳模型: MapCoder (GPT-4)
评估指标
查看详情
codexglue-codesearchnet
最佳模型: Redcoder-ext
评估指标
查看详情
conala
最佳模型: MarianCG
评估指标
查看详情
conala-ext
最佳模型: BART W/ Mined
评估指标
查看详情
django
最佳模型: MarianCG
评估指标
查看详情
floco
最佳模型: FloCo-T5
评估指标
查看详情
humaneval
最佳模型: AgentCoder (GPT-4)
评估指标
查看详情
livecodebench
最佳模型: LPW (GPT-4o)
评估指标
查看详情
pecc
最佳模型: Claude 3 Haiku
评估指标
查看详情
res-q
最佳模型: QurrentOS-coder + Claude 3.5 Sonnet
评估指标
查看详情
shellcode-ia32
最佳模型: CodeBERT
评估指标
查看详情
taco-topics-in-algorithmic-code-generation
最佳模型: GPT-4
评估指标
查看详情
turbulence
最佳模型: GPT-4
评估指标
查看详情
verilogeval
最佳模型: Nexus (Claude 3.5 Sonnet)
评估指标
查看详情
webapp1k-react
最佳模型: o1-preview
评估指标
查看详情
wikisql
最佳模型: NL2SQL-RULE
评估指标
查看详情
bigcodebench-complete
评估指标
查看详情
concode
评估指标
查看详情
dseval-leetcode
评估指标
查看详情
mbpp
评估指标
查看详情
multi-source-python-code-corpus
评估指标
查看详情
verified-smart-contract-code-comments
评估指标
查看详情
webapp1k-duo-react
评估指标
查看详情