8 个月前

自然语言处理

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

摘要

我们介绍了TestCase-Eval，这是一个用于系统评估大型语言模型（LLMs）在测试用例生成方面表现的新基准。TestCase-Eval 包含了来自 Codeforces 平台的 500 个算法问题及其 100,000 个人工编写的解决方案。该基准重点关注两个关键任务：(1) 故障覆盖（Fault Coverage），衡量 LLM 生成的测试集对各种输入场景的探测能力以及对潜在故障模式的广泛覆盖程度；(2) 故障暴露（Fault Exposure），评估 LLM 是否能够设计出特定的测试输入以揭示某个具体的错误代码实现。我们对 19 种最先进的开源和专有 LLM 在 TestCase-Eval 上进行了全面评估，提供了关于它们在生成有效算法问题测试用例方面的优势和局限性的见解。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

摘要

我们介绍了TestCase-Eval，这是一个用于系统评估大型语言模型（LLMs）在测试用例生成方面表现的新基准。TestCase-Eval 包含了来自 Codeforces 平台的 500 个算法问题及其 100,000 个人工编写的解决方案。该基准重点关注两个关键任务：(1) 故障覆盖（Fault Coverage），衡量 LLM 生成的测试集对各种输入场景的探测能力以及对潜在故障模式的广泛覆盖程度；(2) 故障暴露（Fault Exposure），评估 LLM 是否能够设计出特定的测试输入以揭示某个具体的错误代码实现。我们对 19 种最先进的开源和专有 LLM 在 TestCase-Eval 上进行了全面评估，提供了关于它们在生成有效算法问题测试用例方面的优势和局限性的见解。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供