five

CODE2BENCH-2505

收藏
arXiv2025-08-10 更新2025-08-13 收录
下载链接:
https://github.com/code2bench/code2bench
下载链接
链接失效反馈
官方服务:
资源简介:
CODE2BENCH-2505是一个动态构建的基准数据集,旨在评估大型语言模型在真实世界代码生成任务上的性能。该数据集来源于GitHub上880个Python项目,涵盖了多种领域,共包含1163个代码生成任务。数据集通过连续更新GitHub代码库来最小化训练数据污染的风险,并确保其与不断发展的软件开发生态系统保持相关性。数据集中的任务分为两种类型:自包含(SC)任务和弱自包含(WSC)任务,分别对应于跨语言评估和允许使用特定外部库的任务。此外,数据集使用了基于属性的测试(PBT)方法来自动生成高覆盖率的测试套件,以全面验证模型的功能。该数据集为评估大型语言模型在真实世界软件开发任务上的性能提供了坚实的基础。

CODE2BENCH-2505 is a dynamically constructed benchmark dataset designed to evaluate the performance of large language models (LLMs) on real-world code generation tasks. This dataset is sourced from 880 Python projects on GitHub, covers multiple domains, and contains a total of 1163 code generation tasks. The dataset minimizes the risk of training data contamination by continuously updating the GitHub codebase, and ensures its relevance to the evolving software development ecosystems. The tasks in the dataset are divided into two categories: self-contained (SC) tasks and weakly self-contained (WSC) tasks, which correspond to cross-language evaluation tasks and tasks that permit the use of specific external libraries, respectively. In addition, the dataset adopts the property-based testing (PBT) method to automatically generate high-coverage test suites for comprehensively validating the model's functionality. This dataset provides a solid foundation for evaluating the performance of large language models on real-world software development tasks.
提供机构:
北京航空航天大学
创建时间:
2025-08-10
原始信息汇总

CODE2BENCH 数据集概述

数据集简介

  • 名称: CODE2BENCH-2505
  • 类型: 代码生成任务基准测试
  • 目的: 评估大型语言模型(LLM)在真实世界代码生成任务中的表现
  • 特点: 动态构建、抗数据污染、多语言支持

数据集内容

  • 任务数量: 1,163个代码生成任务
  • 编程语言: Python(主要)、Java、Go、JS、TS
  • 任务分类:
    • 自包含任务(Self-Contained, SC)
    • 弱自包含任务(Weakly Self-Contained, WSC)
  • 数据格式: JSON格式存储任务、指令、输入和预期输出

数据来源

  • 来源仓库: 880个高星Python项目
  • 时间范围: 2024年8月至2025年5月的GitHub提交
  • 覆盖领域: 数据处理、数学、文件I/O等

评估方法

  • 测试方法: 基于属性的测试(Property-Based Testing)
  • 测试覆盖率: 100%平均分支覆盖率
  • 评估指标: Pass@1分数和失败类型分布

文件结构

  • 基准测试数据路径: code2bench-2505/
    • SC测试用例: code2bench-2505/Python/
    • WSC测试用例: 需从项目代码页面下载

使用方式

  1. 评估LLM:

    • 实现LLM抽象基类
    • 扩展LLM调用器
    • 运行benchmark_runner.py脚本
  2. 构建新基准:

    • 配置projects.yaml文件
    • 运行完整构建管道或特定阶段

环境要求

  • Python 3.10
  • Graphviz
  • 各语言对应环境(Java/Go/JS/TS)

相关资源

  • 项目网站: https://code2bench.github.io/
  • 论文: "Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes"(NeurIPS 2025投稿)
搜集汇总
数据集介绍
main_image_url
构建方式
CODE2BENCH-2505采用了一种动态、端到端的构建流程,从活跃的GitHub代码库中提取任务,确保数据的新鲜度和低污染风险。通过Scope Graph依赖分析,函数被分类为自包含(SC)和弱自包含(WSC)任务,并利用基于属性的测试(PBT)自动生成高覆盖率的测试套件。该数据集包含来自880个Python项目的1,163个代码生成任务,平均分支覆盖率达到100%。
特点
CODE2BENCH-2505具有动态更新机制,能够定期从最新的GitHub提交中提取任务,有效降低训练数据污染的风险。其任务分为SC和WSC两类,分别针对跨语言评估和允许使用特定库的情境。数据集覆盖了多样化的编程领域,包括数据处理、数学运算和文件I/O等,确保了评估的全面性和现实性。
使用方法
使用CODE2BENCH-2505时,研究人员可以通过提供的测试运行器对大型语言模型生成的代码进行自动化评估。每个任务都包含详细的指令和PBT生成的测试用例,确保评估的严谨性。评估过程采用零样本设置,通过比较模型输出与地面真实实现的差异来计算Pass@1指标,从而全面衡量模型在真实世界代码生成任务中的表现。
背景与挑战
背景概述
CODE2BENCH-2505是由北京航空航天大学的研究团队于2025年提出的动态基准测试数据集,旨在解决大语言模型在真实世界代码生成任务中的评估问题。该数据集从880个近期Python项目中提取了1,163个代码生成任务,通过自动化流程构建了具有100%分支覆盖率的测试套件。其创新性体现在三个方面:通过定期更新GitHub代码库实现自动化动态性;基于范围图的依赖分析实现任务分类;采用基于属性的测试生成高覆盖率测试用例。该数据集填补了现有基准在数据污染和测试严谨性方面的不足,为评估LLM在复杂软件开发任务中的表现提供了新标准。
当前挑战
CODE2BENCH-2505主要应对两大挑战:领域问题方面,现有基准存在数据污染风险且测试严谨性不足,难以有效揭示模型在复杂、非标准逻辑任务中的失败模式;构建过程方面,需要解决从动态代码库中提取可测试函数、控制依赖关系、生成高覆盖率测试用例等技术难题。具体包括:确保提取函数的自包含性、处理跨语言评估的兼容性问题、设计能捕捉边缘案例的测试策略,以及维护基准的动态更新机制以避免数据污染。
常用场景
经典使用场景
CODE2BENCH-2505数据集主要用于评估大型语言模型(LLMs)在真实世界代码生成任务中的性能。其经典使用场景包括动态构建代码生成基准,通过从GitHub仓库中提取最新代码任务,确保评估任务的实时性和多样性。数据集特别适用于测试模型在自包含(SC)和弱自包含(WSC)任务中的表现,涵盖了从简单逻辑到复杂算法的广泛编程任务。
衍生相关工作
CODE2BENCH-2505衍生了一系列经典研究工作,包括跨语言代码生成评估、依赖控制算法的优化以及基于PBT的测试生成技术。相关成果发表在顶级软件工程和人工智能会议上,如ICSE和NeurIPS。数据集还启发了多个后续基准的构建,如专注于特定编程语言或领域的动态评估工具,进一步推动了代码生成研究的多样化和深度发展。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在软件开发工作流程中的广泛应用,如何准确评估其在复杂、真实世界代码生成任务中的性能成为研究热点。CODE2BENCH-2505数据集通过动态构建污染抵抗的基准测试,解决了现有基准测试中数据污染和测试严谨性不足的问题。该数据集采用自动化动态更新机制,定期从GitHub仓库中提取最新代码,确保测试任务与不断演进的软件开发生态系统保持同步。研究重点包括基于范围图的依赖分析,将函数分类为具有可控依赖级别的基准实例,以及基于属性的测试(PBT)自动生成高覆盖率的测试套件。这些创新方法为全面、真实地评估LLMs在现实软件开发任务中的表现提供了理论基础和实践工具。
相关研究论文
  • 1
    Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes北京航空航天大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作