CodeProjectEval

Name: CodeProjectEval
Creator: 北京航空航天大学, 华为中央软件研究院
Published: 2025-11-05 20:12:35
License: 暂无描述

arXiv2025-11-05 更新2025-11-13 收录

下载链接：

https://github.com/whisperzqh/ProjectGen

下载链接

链接失效反馈

官方服务：

资源简介：

CodeProjectEval数据集由北京航空航天大学和华为中央软件研究院共同构建，旨在支持端到端的项目级代码生成任务。该数据集由18个高质量的真实世界代码库组成，每个任务平均包含12.7个源文件和2388.6行代码，并补充了反映用户需求的相关文档。与现有数据集相比，CodeProjectEval更好地捕捉了现实软件开发中的规模和结构复杂性，并提供了可执行的测试用例，以支持自动评估。

提供机构：

北京航空航天大学, 华为中央软件研究院

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

在项目级代码生成研究领域，CodeProjectEval数据集的构建体现了对真实软件开发复杂性的深度还原。该数据集从Commit0、DevEval和CoderEval三个高质量代码基准中筛选出18个Python代码库，通过严格的规模约束、结构复杂度要求和测试覆盖率阈值确保数据质量。构建过程中采用四名具有三年以上Python开发经验的研究人员协同工作，遵循产品需求文档重构、UML图自动生成、架构设计文档编写和测试用例分类的标准流程，并通过三轮交叉评审机制保证标注一致性。

特点

CodeProjectEval的显著特征在于其真实反映工业级软件开发规模，每个任务平均包含12.7个源文件和2,388.6行代码，远超现有基准的数据量级。数据集提供完整的可执行测试套件，包含186个单元测试和10个检查测试，平均测试覆盖率分别达到90.7%和63.4%。其多模态文档体系涵盖产品需求说明、UML设计图和架构设计规范，有效模拟了真实开发环境中的需求传递过程，为评估模型在复杂项目结构下的代码生成能力提供了可靠基准。

使用方法

该数据集支持端到端的项目级代码生成评估，研究者可将自然语言需求文档、UML图和架构设计说明作为输入，要求模型生成完整的多文件代码库。评估阶段采用双重验证机制：检查测试用于迭代开发过程中的初步验证，单元测试则作为最终功能正确性的权威评判标准。通过计算测试通过率和SketchBLEU结构相似度指标，能够全面衡量生成代码的功能完备性和架构合理性，为推进现实场景下的自动化软件开发提供标准化测评框架。

背景与挑战

背景概述

随着敏捷开发与持续交付需求的增长，软件工程领域对自动化代码生成技术提出了更高要求。CodeProjectEval数据集由北京航空航天大学与华为中央软件研究院于2025年联合创建，旨在解决项目级代码生成中存在的真实性与复杂性挑战。该数据集基于18个真实世界代码仓库构建，平均每个任务需生成12.7个源文件与2388.6行代码，通过提供完整文档与可执行测试用例，显著提升了项目级代码生成研究的可靠性与实用性。

当前挑战

项目级代码生成面临双重挑战：在领域问题层面，现有方法难以处理大规模输入、多模态信息与整体架构推理的复杂性，导致生成代码与真实需求存在语义鸿沟；在构建过程中，数据集需平衡真实项目规模与模型生成能力，同时确保测试用例的完备性与独立性，避免数据泄露风险。此外，层级依赖管理与长距离上下文维护也对生成质量构成持续挑战。

常用场景

实际应用

在实际工业场景中，CodeProjectEval支撑了智能软件开发工具的验证与优化。华为中央软件研究院等机构利用该数据集测试多智能体协作框架在真实项目中的表现，评估其生成代码的功能完整性和架构合理性。数据集涵盖的检查测试与单元测试机制可直接应用于持续集成流程，帮助开发团队在敏捷迭代过程中快速验证生成代码的质量，显著提升软件交付效率并降低人工编码成本。

衍生相关工作

基于CodeProjectEval数据集的研究催生了多个经典工作体系。ProjectGen框架通过三阶段生成流程和SSAT表示法实现了项目级代码生成的突破性进展；MetaGPT采用标准操作流程模拟多角色协作开发模式；ChatDev通过结构化对话链实现智能体间的协同编码。这些衍生工作共同推动了软件架构建模、上下文感知生成和迭代优化等关键技术的发展，为自动化软件工程建立了系统化的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集