CloudEval-YAML

Name: CloudEval-YAML
Creator: 阿里巴巴云
Published: 2023-11-10 09:49:57
License: 暂无描述

arXiv2023-11-10 更新2024-06-21 收录

下载链接：

https://github.com/alibaba/CloudEval-YAML

下载链接

链接失效反馈

官方服务：

资源简介：

CloudEval-YAML是由阿里巴巴云开发的数据集，专注于云配置生成，特别是YAML格式的配置文件。该数据集包含1011个手工编写的问题，覆盖了广泛的实际场景，旨在通过单元测试评估云原生应用中的代码生成性能。数据集的创建过程涉及问题简化、翻译和双语表达，以满足实际用户需求。CloudEval-YAML的应用领域主要集中在提高云配置生成的效率和准确性，解决云服务操作中的复杂性和多样性问题。

CloudEval-YAML is a dataset developed by Alibaba Cloud, focusing on cloud configuration generation, particularly YAML-format configuration files. It contains 1,011 manually written questions covering a wide range of real-world scenarios, aiming to evaluate code generation performance in cloud-native applications through unit tests. The development process of CloudEval-YAML involves question simplification, translation, and bilingual representation to meet the needs of actual users. The application fields of CloudEval-YAML mainly focus on improving the efficiency and accuracy of cloud configuration generation, addressing the complexity and diversity issues in cloud service operations.

提供机构：

阿里巴巴云

创建时间：

2023-11-10

搜集汇总

数据集介绍

构建方式

在云原生应用日益普及的背景下，CloudEval-YAML数据集的构建聚焦于解决云配置生成的多样性挑战。该数据集通过精心筛选来自官方文档、StackOverflow热门问题及高质量技术博客的真实场景，手工编写了1011个问题，累计投入超过1200人时。每个问题均包含自然语言描述、可选的YAML上下文、带标签的参考YAML文件以及用于功能验证的单元测试脚本。为确保数据实用性，研究团队进一步采用GPT-4辅助的流程对问题进行了简化和双语翻译，并通过人工审核保证语义一致性与技术准确性。

特点

CloudEval-YAML数据集的核心特点在于其高度的实用性与技术深度。作为首个专注于云原生应用的手工编写数据集，它全面覆盖Kubernetes、Envoy、Istio等主流云原生工具的核心功能场景，问题平均解答长度达28.35行，远超同类基准数据集。数据集创新性地在参考YAML中引入通配符匹配、精确匹配和条件匹配三类标签，支持YAML感知的细粒度评估。同时，通过简化和双语改写，数据集模拟了实际运维中简洁表达与多语言需求的使用场景，增强了其在真实环境中的适用性。

使用方法

使用CloudEval-YAML进行评估时，需通过统一的提示模板将问题描述转换为大语言模型的输入。模型生成的YAML响应经过后处理流程提取纯净配置后，进入多维度评估阶段：文本层面采用BLEU、编辑距离等指标；YAML感知层面基于键值匹配与通配符匹配进行结构分析；功能层面则通过自动化单元测试验证配置的实际运行效果。为提升评估效率，平台设计了可扩展的分布式测试集群，结合共享Docker镜像缓存，将1011个问题的完整评估时间从单机10小时缩短至30分钟，实现了超过20倍的性能加速。

背景与挑战

背景概述

随着云计算生态的蓬勃发展以及基于大语言模型的代码生成工具日益普及，云原生应用领域的代码生成基准测试尚存空白。为应对这一需求，阿里巴巴云联合密歇根大学、加州大学洛杉矶分校等机构的研究团队于2023年推出了CloudEval-YAML数据集。该数据集聚焦于云原生工具中广泛采用的YAML配置语言，旨在评估大语言模型在生成云配置方面的实际能力。通过手工编写涵盖Kubernetes、Envoy、Istio等主流系统的1011个实际问题，并投入超过1200人时进行构建与验证，CloudEval-YAML填补了该领域基准数据的缺失，为云原生智能开发工具的演进提供了关键支撑。

当前挑战

CloudEval-YAML致力于解决云原生配置自动生成的核心挑战：云应用生态的多样性导致统一评测困难，且配置需在真实环境中验证功能性。构建过程中，团队面临两大挑战：一是确保数据集的实用性与代表性，需从官方文档、技术社区等渠道筛选真实场景问题，并设计包含自然语言描述、参考YAML及单元测试的完整评估框架；二是实现高效可扩展的评估流程，通过设计分布式测试集群与共享Docker镜像缓存，将原本单机需10小时的评测时间缩短至30分钟，从而支撑大规模模型的高效迭代与比较。

常用场景

经典使用场景

在云原生应用蓬勃发展的背景下，CloudEval-YAML数据集作为首个专注于YAML配置生成的手写基准，其经典使用场景在于评估大型语言模型在生成云原生工具配置方面的能力。该数据集通过涵盖Kubernetes、Envoy和Istio等主流云原生应用的1011个实际问题，模拟了从创建服务到调试配置的多样化任务，为研究者提供了衡量模型在真实云环境中生成准确、功能完备YAML配置的性能标准。

衍生相关工作

CloudEval-YAML数据集催生了一系列相关研究，包括对多样本生成、少样本提示以及单元测试结果预测方法的深入探索。这些工作进一步分析了不同模型在云配置任务上的失败模式，并提出了通过后处理过滤或模型微调来提升性能的策略。该数据集也为后续开发更高效的云原生代码生成基准和跨语言配置评估工具奠定了重要基础。

数据集最近研究