E2EDev

github2025-10-16 更新2025-11-08 收录

下载链接：

https://github.com/SCUNLP/E2EDev

下载链接

链接失效反馈

官方服务：

资源简介：

E2EDev是一个用于端到端软件开发任务评估的大型语言模型基准数据集，包含46个精选项目的标注数据，每个项目包含源代码、带有Gherkin风格测试用例的细粒度用户需求以及用于提示任务的模板格式需求

E2EDev is a large language model (LLM) benchmark dataset for evaluating end-to-end software development tasks. It contains annotated data from 46 curated projects, where each project includes source code, fine-grained user requirements with Gherkin-style test cases, and template-formatted requirements for task prompting.

创建时间：

2025-10-08

原始信息汇总

E2EDev 数据集概述

数据集基本信息

名称：E2EDev
用途：端到端软件开发任务中大语言模型的基准测试
数据规模：包含46个精选E2EDev项目的标注数据

数据结构

E2EDev_data/

包含46个精选E2EDev项目的标注数据，每个项目文件夹包含：

source_code/：选定项目的原始源代码，包括必要的资源文件（如图像或音频文件）
requirment_with_tests.json：包含细粒度用户需求，每个需求都配有：
- Gherkin风格的测试用例
- 对应的Python步骤实现
prompt.txt：所有细粒度需求被串联成模板提示格式，可直接用于提示任务

数据可用性

数据集在Hugging Face平台同步提供：https://huggingface.co/datasets/GuanZhiZhao/E2EDev

标注框架

HITL-MAA/

包含半自动标注框架的源代码，包括：

TestID的预标注功能
人机交互多智能体架构（HITL-MAA）

依赖要求

ChromDriver：标注和测试框架依赖于behave测试工具
Python库：通过requirements.txt文件安装所需Python库

评估指标

有效性评估

在Metrics/文件夹中运行有效性指标
需要设置run_behave_test.py生成的结果文件夹路径

效率评估

需要正确配置以下路径：
- 日志文件路径：包含标注框架生成的日志目录
- 生成项目目录：存储输出项目的文件夹
- 预期输出目录：参考或真实输出文件的位置

搜集汇总

数据集介绍

构建方式

在软件工程领域，E2EDev数据集的构建采用了半自动化标注框架，结合人工参与的智能代理架构。该框架首先对46个精选项目进行预标注，生成TestID标识，随后通过多代理系统细化用户需求，并配套Gherkin风格测试用例及Python步骤实现。每个项目均包含源代码、需求测试文件及结构化提示模板，确保数据的一致性与完整性。

使用方法

使用E2EDev数据集时，研究者需配置标注框架的API参数，运行预标注脚本生成结构化项目数据。通过启动多代理标注流程，结合人工交互完善需求与测试案例。测试阶段利用behave工具执行自动化验证，并调用评估脚本计算效能与效率指标。整个过程强调可重复性，支持从需求分析到代码生成的端到端工作流验证。

背景与挑战

背景概述

E2EDev数据集由GuanZhiZhao等研究人员于2024年构建，旨在评估大型语言模型在端到端软件开发任务中的综合能力。该数据集聚焦于软件工程领域的自动化编程研究，通过整合46个精选项目的源代码、细粒度需求及测试用例，为模型在真实开发场景中的需求理解、代码生成与测试验证等环节提供标准化基准。其创新性地采用半自动化标注框架，推动了智能编程助手在工业应用中的可靠性验证，对提升人工智能驱动的软件开发效率具有重要影响。

当前挑战

E2EDev数据集致力于解决端到端软件开发中需求对齐与代码正确性的核心难题，其挑战体现在两方面：领域问题层面，需克服自然语言需求到可执行代码的语义鸿沟，以及多模块集成时的逻辑一致性维护；构建过程层面，半自动化标注依赖人工干预以确保测试用例的精确性，而复杂项目依赖环境（如ChromeDriver与行为测试工具链）的配置稳定性亦增加了数据标准化难度。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，E2EDev数据集为评估大型语言模型在端到端软件开发任务中的表现提供了标准化基准。其核心应用场景聚焦于自动化代码生成与测试验证，研究人员通过整合细粒度用户需求、Gherkin风格测试用例及对应Python步骤实现，构建了从需求分析到功能验证的完整闭环。该框架支持对模型生成的代码进行自动化行为测试，有效衡量模型在真实开发环境中的逻辑一致性与功能完整性。

解决学术问题

该数据集显著推进了智能编程辅助系统的研究进程，解决了传统基准在评估代码功能性、可执行性方面的局限性。通过引入人类在环的多智能体标注架构，它确保了需求与测试用例之间的语义对齐，为研究社区提供了验证代码生成模型泛化能力的可靠平台。其创新性在于将软件工程中的行为驱动开发方法论融入评估体系，为衡量模型在复杂软件开发链路上的综合能力建立了新范式。

实际应用

在产业实践中，E2EDev支撑着智能编程工具的性能优化与落地验证。开发团队可借助其标准化测试流程，评估AI编程助手在真实项目中的需求理解准确度与代码生成质量。企业能够通过该基准筛选符合工程标准的智能开发方案，显著降低人工测试成本。其提供的46个精选项目覆盖多样化开发场景，为构建下一代自动化软件开发流水线提供了关键基础设施。

数据集最近研究