five

Exec-CSN

收藏
arXiv2024-05-08 更新2024-07-31 收录
下载链接:
https://github.com/Veronicium/CodeBenchGen
下载链接
链接失效反馈
官方服务:
资源简介:
Exec-CSN是由卡内基梅隆大学创建的一个大规模代码生成数据集,包含1931个示例,这些示例是从367个GitHub仓库中提取并修改的。数据集旨在通过执行基础的评估示例来评估代码生成系统的能力。Exec-CSN涵盖了293个库和668个仓库主题,反映了广泛的编程场景和难度级别。该数据集通过迭代执行和调试过程生成,确保每个示例都能通过所有测试用例。Exec-CSN的应用领域包括评估和改进代码生成模型,特别是在解决复杂编程问题和提高代码质量方面。

Exec-CSN is a large-scale code generation dataset developed by Carnegie Mellon University. It contains 1,931 examples extracted and modified from 367 GitHub repositories. This dataset is designed to evaluate the capabilities of code generation systems by executing baseline evaluation examples. Exec-CSN covers 293 libraries and 668 repository topics, reflecting a wide range of programming scenarios and difficulty levels. The dataset is generated through an iterative execution and debugging process, ensuring that every example can pass all test cases. The application areas of Exec-CSN include evaluating and improving code generation models, especially in solving complex programming problems and enhancing code quality.
提供机构:
卡内基梅隆大学
创建时间:
2024-03-31
原始信息汇总

CodeBenchGen 数据集概述

数据集创建步骤

环境设置

  • 环境变量:需在 setup.sh 中设置并运行 source setup.sh

  • 外部库:安装以下包:

    pip install transformers==4.21.0 tree_sitter==0.20.1 sacrebleu=="1.2.11"

  • Docker 设置:推荐在 Docker 中执行代码,使用提供的 Dockerfile 构建镜像并运行容器。

使用 CodeBenchGen 创建基准

  • 输入:准备代码片段集,选择目标代码段,输入格式为 JSON 文件。
  • 步骤 1:沙箱化:隔离输入代码环境。
  • 步骤 2:测试生成:为每个示例生成测试函数。
  • 步骤 3:迭代执行与调试:在 Docker 容器中迭代执行和调试生成的示例。
  • 步骤 4:后处理:包括环境检查和指令生成,最终数据文件格式为 JSON。

可选:测试增强

  • 生成候选测试:使用模型生成额外的测试。
  • 执行候选测试:确保参考答案通过所有测试。
  • 添加成功测试:将通过的测试添加到数据文件中。

评估

  • 推理:提供代码进行模型推理,支持开源模型和 OpenAI API。
  • Pass@k 评估:在 Docker 中执行代码进行 Pass@k 评估。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作