CodeProjectEval

github2025-11-02 更新2025-11-14 收录

下载链接：

https://github.com/whisperzqh/ProjectGen

下载链接

链接失效反馈

官方服务：

资源简介：

CodeProjectEval是一个新的项目级代码生成数据集，包含18个Python仓库，涵盖广泛主题，更好地反映真实世界项目场景，并通过可执行测试用例支持评估。每个仓库都补充了详细的功能和非功能需求描述文档。

CodeProjectEval is a novel project-level code generation dataset. It includes 18 Python repositories spanning a wide range of domains, which better reflect real-world project scenarios and enable evaluation via executable test cases. Each repository is supplemented with detailed documentation of its functional and non-functional requirements.

创建时间：

2025-11-01

原始信息汇总

ProjectGen 数据集概述

数据集基本信息

数据集名称: CodeProjectEval
核心用途: 项目级代码生成评估
项目数量: 18个Python代码库
覆盖领域: 广泛的主题范围

数据集技术特征

规模统计

平均文件数: 12.7个
平均代码行数: 2,388.6行
平均复杂度: 3.03

测试覆盖

检查测试: 平均10个（覆盖率63.4%）
单元测试: 平均186个（覆盖率90.7%）
PRD文档: 平均2,067个标记

数据集组成结构

核心代码库

包含以下18个Python项目：

bplustree
cookiecutter
csvs-to-sqlite
deprecated
djangorestframework-simplejwt
flask
imapclient
parsel
portalocker
pyjwt
python-hl7
rsa
simpy
tinydb
trailscraper
voluptuous
xmnlp
zxcvbn

补充文档资源

每个代码库包含：

PRD文档: 软件系统功能和非功能需求详细描述
UML图表: 类图和包图（由Pyreverse生成）
架构设计文档: 目录树结构和源文件描述
检查测试: 代码生成过程中的初步验证
单元测试: 评估生成项目的整体质量和功能正确性

数据集设计目标

更好反映真实世界项目场景
支持通过可执行测试用例进行评估
为项目级代码生成提供基准测试环境

搜集汇总

数据集介绍

构建方式

在软件工程领域，项目级代码生成评估需要贴近真实开发场景。CodeProjectEval数据集通过精选18个Python代码仓库构建而成，涵盖从数据结构到Web框架的多元主题。每个仓库均配备详细的需求文档、架构设计图和测试套件，采用多阶段协作框架将项目分解为架构设计、骨架生成与代码填充等环节，并通过迭代优化确保代码质量与功能完整性。

特点

该数据集以高度结构化著称，每个项目均包含需求文档、UML类图及分层测试体系。其代码规模中位数为2092行，平均复杂度维持在3.03，覆盖了63.4%的检查测试与90.7%的单元测试。这种设计既保留了真实项目的技术多样性，又通过标准化文档为代码生成研究提供了可量化的评估基准。

使用方法

研究者可通过配置OpenAI API密钥启动评估流程，运行主程序即可调用多智能体框架进行项目生成。系统会依次执行架构解析、代码生成与测试验证，最终通过单元测试覆盖率等指标量化生成质量。这种端到端的评估方式能够全面检验模型在真实开发环境中的代码生成能力。

背景与挑战

背景概述

随着人工智能在软件工程领域的深入应用，项目级代码生成已成为提升开发效率的关键研究方向。CodeProjectEval数据集应运而生，由多智能体协作框架ProjectGen的研究团队构建，旨在通过模拟真实软件开发流程，解决从需求分析到代码实现的完整项目生成问题。该数据集涵盖18个Python代码库，涉及数据库操作、Web框架、加密算法等多个领域，通过架构设计、骨架生成与代码填充的三阶段建模，显著推动了自动化编程技术的发展，并为评估生成代码的功能正确性与结构合理性提供了标准化基准。

当前挑战

项目级代码生成需克服语义连贯性与系统复杂性的双重挑战：一方面，生成代码需严格遵循用户需求文档中的功能规范，同时维持模块间接口的一致性；另一方面，构建过程中需协调多文件依赖关系，确保单元测试覆盖率达90.7%的工业标准。数据集的创建还面临真实项目复现的难题，包括代码规模差异（单库最高9314行）、逻辑复杂度波动（平均复杂度3.03）以及测试用例的全面性验证，这些因素共同构成了对生成模型架构设计与上下文理解能力的严峻考验。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，CodeProjectEval数据集通过整合18个Python代码仓库，构建了覆盖多样化主题的项目级代码生成评估平台。其核心应用聚焦于多智能体协作框架下的代码生成任务验证，支持从架构设计到功能实现的完整流程模拟，为研究者提供了标准化测试环境以衡量模型在复杂项目构建中的表现。

解决学术问题

该数据集有效应对了传统代码生成研究局限于片段级输出的瓶颈，通过引入可执行测试用例与语义架构文档，解决了项目级代码功能完整性验证的学术难题。其多维度评估指标（如测试覆盖率、代码复杂度）为量化生成代码的可靠性与可维护性提供了实证基础，推动了自动化软件开发范式的理论发展。

衍生相关工作

基于该数据集衍生的经典研究包括多阶段代码生成框架ProjectGen，其通过架构分解与迭代优化机制启发了后续如ArchCode、SynthLab等工具的开发。这些工作进一步拓展了语义建模与动态测试的结合路径，为智能编程领域的协同设计范式奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集