SWE-Dev

github2025-06-03 更新2025-06-24 收录

下载链接：

https://github.com/DorothyDUUU/SWE-Dev

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Dev是第一个用于特征驱动开发（FDD）的大规模基准测试和训练语料库，该任务涉及向现有代码库添加新功能。它包含14,000个训练任务和500个测试任务，每个任务都带有可运行的环境和开发者编写的单元测试，支持监督微调和基于可执行奖励的强化学习。

SWE-Dev is the first large-scale benchmark and training corpus for Feature-Driven Development (FDD), a task focused on adding new functionalities to existing codebases. It comprises 14,000 training tasks and 500 test tasks, each accompanied by a runnable environment and developer-written unit tests, and supports supervised fine-tuning as well as reinforcement learning grounded in executable rewards.

创建时间：

2025-05-26

原始信息汇总

SWE-Dev 数据集概述

数据集简介

名称：SWE-Dev
类型：特征驱动开发（FDD）基准测试和训练语料库
规模：
- 训练任务：14,000个
- 测试任务：500个
特点：
- 每个任务包含可运行环境和开发者编写的单元测试
- 支持监督微调和基于可执行奖励的强化学习

数据集亮点

真实性：任务来源于成熟的开源项目
可复现性：每个任务包含源代码、依赖项、Dockerfile和测试
强化学习支持：通过pytest提供确定性通过/失败奖励信号
挑战性：Claude-3.7-Sonnet在困难任务上的Pass@3仅为22.45%
有效性：在7B模型上微调可达到GPT-4o在困难任务上的性能水平

数据集结构

data/ ├── train/ │ ├── level1/ │ ├── level2/ │ └── level3/ └── test/ ├── Easy/ └── Hard/

下载与安装

数据集下载： bash python dataset/download_data.py --dest ./data
Docker环境：
- 测试集Docker（至少10GB空间）： bash python download_docker.py --split test
- 训练集Docker（至少100GB空间）： bash python download_docker.py --split train

评估与训练

单智能体推理： bash bash SWE-Dev-dataset/infer/single/run.sh
多智能体系统：集成10种方法，详见MASLab框架
微调：
- 单智能体监督微调（SFT）
- 单智能体强化学习（即将推出）
- 多智能体监督微调（即将推出）

性能基准

类别	方法数量	Easy最佳Pass@1	Hard最佳Pass@1
聊天LLMs	17	54.37%	19.13%
推理LLMs	10	51.21%	22.51%
多智能体系统	10	-	-

许可信息

许可证：Apache 2.0
许可文件：LICENSE

引用方式

bibtex @article{du2025swedev, title={SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development}, author={Du, Yaxin and Cai, Yuzhu and Zhou, Yifan and Wang, Cheng and Qian, Yu and Pang, Xianghe and Liu, Qian and Hu, Yue and Chen, Siheng}, journal={arXiv preprint arXiv:2505.16975}, year={2025} }

搜集汇总

数据集介绍

构建方式

在软件工程领域，特征驱动开发（FDD）作为增量式开发方法论，对代码库的功能扩展能力提出了严格要求。SWE-Dev数据集通过系统化采集成熟开源项目的真实开发任务，构建了包含14,000个训练任务和500个测试任务的大规模语料库。每个任务单元均配置了可运行环境、完整依赖项、Docker容器配置及开发者编写的单元测试，确保了实验环境的端到端可复现性。数据集采用分层设计策略，依据任务复杂度将训练集划分为三个难度等级，测试集则采用二元划分体系，为不同能力模型的评估提供细粒度基准。

特点

该数据集的核心价值在于其高度仿真的任务设置与严谨的评估体系。所有开发任务均源自真实项目提交历史，保留了原始代码库的复杂依赖关系和工程约束条件。通过预置的pytest测试框架，可生成确定性的通过/失败信号，为强化学习提供天然奖励机制。数据统计分析显示，当前顶尖模型Claude-3.7-Sonnet在困难任务子集上的Pass@3指标仅为22.45%，印证了数据集的挑战性。特别值得注意的是，基于本数据集微调的70亿参数模型在困难任务上可达到GPT-4o级别的性能表现，证实了其对于模型能力提升的有效性。

使用方法

使用该数据集需遵循标准化的工作流程。通过提供的Python脚本可下载结构化存储的数据集，其中训练集与测试集分别配置专属Docker镜像以确保环境一致性。评估API的封装使得强化学习训练过程得以简化，支持单智能体与多智能体两种实验范式。对于模型微调，数据集提供与Llama-Factory框架兼容的配置文件，并计划发布HuggingFace格式的训练数据。研究团队还集成了10种主流多智能体系统实现方案，涵盖NeurIPS、ICML等顶会提出的先进方法，为对比研究提供便利。快速推理脚本支持单命令启动模型测试，测试结果可自动对接在线排行榜系统。

背景与挑战

背景概述

SWE-Dev数据集是首个专注于特征驱动开发（Feature-Driven Development, FDD）的大规模基准测试与训练语料库，由DorothyDUUU团队于2025年发布。该数据集旨在解决现有代码库中添加新功能这一现实世界任务，填补了自动化软件开发领域的研究空白。数据集包含14,000个训练任务和500个测试任务，每个任务均配备可运行环境及开发者编写的单元测试，支持监督式微调与基于可执行奖励的强化学习。其创新性体现在从成熟开源项目中提取真实FDD任务，并通过端到端可复现的Docker环境确保实验可靠性，对提升AI辅助软件开发系统的实用性和可靠性具有重要价值。

当前挑战

SWE-Dev面临的领域挑战主要体现在特征驱动开发任务的复杂性，当前最先进模型Claude-3.7-Sonnet在困难子集上仅达到22.45%的Pass@3准确率，反映出代码理解、依赖关系处理和API调用等核心能力的不足。构建过程中的技术挑战包括：1) 真实开发环境的精确复现需协调源代码、依赖项与测试框架的版本兼容性；2) 大规模Docker镜像（训练集达100GB）的存储与分发效率优化；3) 单元测试作为确定性奖励信号时，对模型迭代过程中的评估延迟问题。这些挑战为后续研究提供了明确的改进方向。

常用场景

经典使用场景

在软件工程领域，特征驱动开发（FDD）是增强现有代码库功能的重要实践。SWE-Dev数据集作为首个大规模FDD基准测试和训练语料库，为研究人员提供了14,000个训练任务和500个测试任务，每个任务均包含可运行环境和开发者编写的单元测试。这一数据集特别适用于监督微调和基于可执行奖励的强化学习，为自动化软件开发研究提供了标准化的评估平台。

解决学术问题

SWE-Dev数据集解决了自动化软件开发中的关键学术问题，包括代码生成模型的性能评估、多智能体系统在软件开发中的协作效率，以及强化学习在代码优化中的应用。通过提供真实世界的FDD任务和确定性通过/失败奖励信号，该数据集为模型改进提供了可靠基准，例如在硬分割测试中，经过微调的7B模型可以达到GPT-4o级别的性能。

衍生相关工作

SWE-Dev数据集已经衍生出多项经典研究工作，包括基于反射（Reflexion）、自洽性（Self-Consistency）和LLM辩论（LLM Debate）等方法的单智能体系统，以及MetaGPT、ChatDev等多智能体系统。这些工作发表在NeurIPS、ICLR、ICML等顶级会议上，推动了自动化软件开发领域的前沿研究。数据集还集成了MASLab框架，为多智能体系统的评估提供了标准化平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集