HyperAIHyperAI

Command Palette

Search for a command to run...

CloudEval-YAML:一种面向云配置生成的实用基准

摘要

在云计算生态蓬勃发展以及基于大语言模型(LLM)的代码生成工具日益普及的背景下,针对云原生应用中的代码生成任务仍缺乏有效的基准评测体系。为应对这一需求,我们提出了 CloudEval-YAML——一个面向云配置生成的实用型基准测试数据集。CloudEval-YAML 通过聚焦 YAML 格式,解决了云原生工具中配置多样性的挑战,因为 YAML 已成为众多云原生工具的事实标准。该基准的构建充分考虑了实际应用需求:数据集包含由人工编写的、带有单元测试的实际场景问题,确保了任务的真实性和实用性。为进一步提升实用性,我们对问题表述进行了精炼、简洁化和中英双语化处理。整个数据集共包含 1011 个问题,完成这些任务预计需超过 1200 个人工工时。为提升评估过程的效率,我们构建了一个可扩展的评估平台,相较于单机运行,实现了高达 20 倍的加速效果。据我们所知,CloudEval-YAML 是首个专为云原生应用设计的手写问题数据集。我们对 12 个主流大语言模型进行了深入评估,不仅加深了对任务挑战与模型能力的理解,还提炼出一系列有效提升任务性能、降低使用成本的方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供