HyperAI超神经

大语言模型能否生成高质量的算法问题测试用例? TestCase-Eval:故障覆盖率和暴露的系统性评估

Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
发布日期: 6/18/2025
大语言模型能否生成高质量的算法问题测试用例?
  TestCase-Eval:故障覆盖率和暴露的系统性评估
摘要

我们介绍了TestCase-Eval,这是一个用于系统评估大型语言模型(LLMs)在测试用例生成方面表现的新基准。TestCase-Eval 包含了来自 Codeforces 平台的 500 个算法问题及其 100,000 个人工编写的解决方案。该基准重点关注两个关键任务:(1) 故障覆盖(Fault Coverage),衡量 LLM 生成的测试集对各种输入场景的探测能力以及对潜在故障模式的广泛覆盖程度;(2) 故障暴露(Fault Exposure),评估 LLM 是否能够设计出特定的测试输入以揭示某个具体的错误代码实现。我们对 19 种最先进的开源和专有 LLM 在 TestCase-Eval 上进行了全面评估,提供了关于它们在生成有效算法问题测试用例方面的优势和局限性的见解。