five

SWE-Dev

收藏
github2025-06-03 更新2025-06-24 收录
下载链接:
https://github.com/DorothyDUUU/SWE-Dev
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-Dev是第一个用于特征驱动开发(FDD)的大规模基准测试和训练语料库,该任务涉及向现有代码库添加新功能。它包含14,000个训练任务和500个测试任务,每个任务都带有可运行的环境和开发者编写的单元测试,支持监督微调和基于可执行奖励的强化学习。

SWE-Dev is the first large-scale benchmark and training corpus for Feature-Driven Development (FDD), a task focused on adding new functionalities to existing codebases. It comprises 14,000 training tasks and 500 test tasks, each accompanied by a runnable environment and developer-written unit tests, and supports supervised fine-tuning as well as reinforcement learning grounded in executable rewards.
创建时间:
2025-05-26
原始信息汇总

SWE-Dev 数据集概述

数据集简介

  • 名称:SWE-Dev
  • 类型:特征驱动开发(FDD)基准测试和训练语料库
  • 规模
    • 训练任务:14,000个
    • 测试任务:500个
  • 特点
    • 每个任务包含可运行环境和开发者编写的单元测试
    • 支持监督微调和基于可执行奖励的强化学习

数据集亮点

  • 真实性:任务来源于成熟的开源项目
  • 可复现性:每个任务包含源代码、依赖项、Dockerfile和测试
  • 强化学习支持:通过pytest提供确定性通过/失败奖励信号
  • 挑战性:Claude-3.7-Sonnet在困难任务上的Pass@3仅为22.45%
  • 有效性:在7B模型上微调可达到GPT-4o在困难任务上的性能水平

数据集结构

data/ ├── train/ │ ├── level1/ │ ├── level2/ │ └── level3/ └── test/ ├── Easy/ └── Hard/

下载与安装

  1. 数据集下载: bash python dataset/download_data.py --dest ./data

  2. Docker环境

    • 测试集Docker(至少10GB空间): bash python download_docker.py --split test

    • 训练集Docker(至少100GB空间): bash python download_docker.py --split train

评估与训练

  • 单智能体推理: bash bash SWE-Dev-dataset/infer/single/run.sh

  • 多智能体系统:集成10种方法,详见MASLab框架

  • 微调

    • 单智能体监督微调(SFT)
    • 单智能体强化学习(即将推出)
    • 多智能体监督微调(即将推出)

性能基准

类别 方法数量 Easy最佳Pass@1 Hard最佳Pass@1
聊天LLMs 17 54.37% 19.13%
推理LLMs 10 51.21% 22.51%
多智能体系统 10 - -

许可信息

  • 许可证:Apache 2.0
  • 许可文件LICENSE

引用方式

bibtex @article{du2025swedev, title={SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development}, author={Du, Yaxin and Cai, Yuzhu and Zhou, Yifan and Wang, Cheng and Qian, Yu and Pang, Xianghe and Liu, Qian and Hu, Yue and Chen, Siheng}, journal={arXiv preprint arXiv:2505.16975}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,特征驱动开发(FDD)作为增量式开发方法论,对代码库的功能扩展能力提出了严格要求。SWE-Dev数据集通过系统化采集成熟开源项目的真实开发任务,构建了包含14,000个训练任务和500个测试任务的大规模语料库。每个任务单元均配置了可运行环境、完整依赖项、Docker容器配置及开发者编写的单元测试,确保了实验环境的端到端可复现性。数据集采用分层设计策略,依据任务复杂度将训练集划分为三个难度等级,测试集则采用二元划分体系,为不同能力模型的评估提供细粒度基准。
特点
该数据集的核心价值在于其高度仿真的任务设置与严谨的评估体系。所有开发任务均源自真实项目提交历史,保留了原始代码库的复杂依赖关系和工程约束条件。通过预置的pytest测试框架,可生成确定性的通过/失败信号,为强化学习提供天然奖励机制。数据统计分析显示,当前顶尖模型Claude-3.7-Sonnet在困难任务子集上的Pass@3指标仅为22.45%,印证了数据集的挑战性。特别值得注意的是,基于本数据集微调的70亿参数模型在困难任务上可达到GPT-4o级别的性能表现,证实了其对于模型能力提升的有效性。
使用方法
使用该数据集需遵循标准化的工作流程。通过提供的Python脚本可下载结构化存储的数据集,其中训练集与测试集分别配置专属Docker镜像以确保环境一致性。评估API的封装使得强化学习训练过程得以简化,支持单智能体与多智能体两种实验范式。对于模型微调,数据集提供与Llama-Factory框架兼容的配置文件,并计划发布HuggingFace格式的训练数据。研究团队还集成了10种主流多智能体系统实现方案,涵盖NeurIPS、ICML等顶会提出的先进方法,为对比研究提供便利。快速推理脚本支持单命令启动模型测试,测试结果可自动对接在线排行榜系统。
背景与挑战
背景概述
SWE-Dev数据集是首个专注于特征驱动开发(Feature-Driven Development, FDD)的大规模基准测试与训练语料库,由DorothyDUUU团队于2025年发布。该数据集旨在解决现有代码库中添加新功能这一现实世界任务,填补了自动化软件开发领域的研究空白。数据集包含14,000个训练任务和500个测试任务,每个任务均配备可运行环境及开发者编写的单元测试,支持监督式微调与基于可执行奖励的强化学习。其创新性体现在从成熟开源项目中提取真实FDD任务,并通过端到端可复现的Docker环境确保实验可靠性,对提升AI辅助软件开发系统的实用性和可靠性具有重要价值。
当前挑战
SWE-Dev面临的领域挑战主要体现在特征驱动开发任务的复杂性,当前最先进模型Claude-3.7-Sonnet在困难子集上仅达到22.45%的Pass@3准确率,反映出代码理解、依赖关系处理和API调用等核心能力的不足。构建过程中的技术挑战包括:1) 真实开发环境的精确复现需协调源代码、依赖项与测试框架的版本兼容性;2) 大规模Docker镜像(训练集达100GB)的存储与分发效率优化;3) 单元测试作为确定性奖励信号时,对模型迭代过程中的评估延迟问题。这些挑战为后续研究提供了明确的改进方向。
常用场景
经典使用场景
在软件工程领域,特征驱动开发(FDD)是增强现有代码库功能的重要实践。SWE-Dev数据集作为首个大规模FDD基准测试和训练语料库,为研究人员提供了14,000个训练任务和500个测试任务,每个任务均包含可运行环境和开发者编写的单元测试。这一数据集特别适用于监督微调和基于可执行奖励的强化学习,为自动化软件开发研究提供了标准化的评估平台。
解决学术问题
SWE-Dev数据集解决了自动化软件开发中的关键学术问题,包括代码生成模型的性能评估、多智能体系统在软件开发中的协作效率,以及强化学习在代码优化中的应用。通过提供真实世界的FDD任务和确定性通过/失败奖励信号,该数据集为模型改进提供了可靠基准,例如在硬分割测试中,经过微调的7B模型可以达到GPT-4o级别的性能。
衍生相关工作
SWE-Dev数据集已经衍生出多项经典研究工作,包括基于反射(Reflexion)、自洽性(Self-Consistency)和LLM辩论(LLM Debate)等方法的单智能体系统,以及MetaGPT、ChatDev等多智能体系统。这些工作发表在NeurIPS、ICLR、ICML等顶级会议上,推动了自动化软件开发领域的前沿研究。数据集还集成了MASLab框架,为多智能体系统的评估提供了标准化平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作