6 个月前

自然语言处理

Yifei Xu Yuning Chen Xumiao Zhang Xianshang Lin Pan Hu Yunfei Ma Songwu Lu Wan Du Zhuoqing Mao Ennan Zhai

摘要

在云计算生态蓬勃发展以及基于大语言模型（LLM）的代码生成工具日益普及的背景下，针对云原生应用中的代码生成任务仍缺乏有效的基准评测体系。为应对这一需求，我们提出了 CloudEval-YAML——一个面向云配置生成的实用型基准测试数据集。CloudEval-YAML 通过聚焦 YAML 格式，解决了云原生工具中配置多样性的挑战，因为 YAML 已成为众多云原生工具的事实标准。该基准的构建充分考虑了实际应用需求：数据集包含由人工编写的、带有单元测试的实际场景问题，确保了任务的真实性和实用性。为进一步提升实用性，我们对问题表述进行了精炼、简洁化和中英双语化处理。整个数据集共包含 1011 个问题，完成这些任务预计需超过 1200 个人工工时。为提升评估过程的效率，我们构建了一个可扩展的评估平台，相较于单机运行，实现了高达 20 倍的加速效果。据我们所知，CloudEval-YAML 是首个专为云原生应用设计的手写问题数据集。我们对 12 个主流大语言模型进行了深入评估，不仅加深了对任务挑战与模型能力的理解，还提炼出一系列有效提升任务性能、降低使用成本的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Yifei Xu Yuning Chen Xumiao Zhang Xianshang Lin Pan Hu Yunfei Ma Songwu Lu Wan Du Zhuoqing Mao Ennan Zhai

摘要

在云计算生态蓬勃发展以及基于大语言模型（LLM）的代码生成工具日益普及的背景下，针对云原生应用中的代码生成任务仍缺乏有效的基准评测体系。为应对这一需求，我们提出了 CloudEval-YAML——一个面向云配置生成的实用型基准测试数据集。CloudEval-YAML 通过聚焦 YAML 格式，解决了云原生工具中配置多样性的挑战，因为 YAML 已成为众多云原生工具的事实标准。该基准的构建充分考虑了实际应用需求：数据集包含由人工编写的、带有单元测试的实际场景问题，确保了任务的真实性和实用性。为进一步提升实用性，我们对问题表述进行了精炼、简洁化和中英双语化处理。整个数据集共包含 1011 个问题，完成这些任务预计需超过 1200 个人工工时。为提升评估过程的效率，我们构建了一个可扩展的评估平台，相较于单机运行，实现了高达 20 倍的加速效果。据我们所知，CloudEval-YAML 是首个专为云原生应用设计的手写问题数据集。我们对 12 个主流大语言模型进行了深入评估，不仅加深了对任务挑战与模型能力的理解，还提炼出一系列有效提升任务性能、降低使用成本的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供