five

SWE-Dev

收藏
arXiv2025-05-23 更新2025-05-24 收录
下载链接:
https://github.com/justLittleWhite/SWE-Dev
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-Dev是一个大规模数据集,旨在评估和训练自主编码系统在现实世界的功能开发任务上的能力。该数据集包含14,000个训练样本和500个测试样本,每个样本都提供了一个可运行的执行环境和开发者编写的可执行单元测试。SWE-Dev不仅为监督微调提供了高质量的数据,还通过可执行的单元测试提供了准确的奖励信号,支持强化学习。该数据集涵盖了17个聊天机器人大型语言模型、10个推理模型和10个多智能体系统,揭示了功能驱动开发是当前人工智能的挑战前沿。SWE-Dev为模型改进提供了一个有效的平台,通过在训练集上微调,使得一个70亿参数的模型在困难子集上与GPT-4o相当,凸显了其高质量训练数据的价值。
提供机构:
上海交通大学、北京航空航天大学、苏州大学、Tiktok、密歇根大学
创建时间:
2025-05-23
原始信息汇总

SWE-Dev 数据集概述

📌 基本信息

📚 数据集用途

  • 用于评估和训练自主驱动的软件开发功能。

🛠 环境配置

  • Python版本: 3.8或更高版本
  • 操作系统支持: Windows和macOS
  • 依赖安装: bash conda create -n swe_bench python=3.8 conda activate swe_bench git clone https://github.com/yifan-zhou1/SWE-Dev.git cd SWE-Dev pip install -r requirement.txt

🚦 使用步骤

  1. 运行 step1.py: bash python step1.py

  2. 运行 step2.py: bash python step2.py

  3. 运行 step3.py: bash python step3.py

📝 引用

  • 使用该数据集时,请引用相关论文。
搜集汇总
数据集介绍
main_image_url
构建方式
SWE-Dev数据集通过三个关键步骤构建而成,以确保其真实性和多样性。首先,从8,000个流行的PyPI软件包中筛选出1,086个具有可执行测试套件的仓库,确保每个样本均基于真实项目。其次,通过动态分析生成测试文件与源代码之间的调用树,精确映射功能逻辑。最后,通过屏蔽核心函数并生成自然语言需求文档(PRD),形成开发任务。每个样本均包含可运行环境和开发者编写的单元测试,为模型提供可靠的执行反馈。
特点
SWE-Dev数据集具有三大核心特点:其一,任务复杂度高,平均每个样本需修改190行代码并涉及3个文件,模拟真实开发中的跨文件依赖。其二,评估机制严谨,采用开发者原始单元测试作为验证标准,确保功能正确性。其三,训练支持全面,14,000个训练样本均配备可执行测试套件,支持监督微调(SFT)、强化学习(RL)和多智能体系统(MAS)训练。
使用方法
使用SWE-Dev时,开发者需遵循以下流程:首先解析PRD中的功能需求,理解待实现的代码上下文。随后,模型生成代码并提交至可运行环境中执行。最终,通过单元测试验证功能正确性,计算通过率(如Pass@k)。数据集支持多种训练范式,包括基于测试反馈的RL训练、角色化MAS协同开发,以及传统SFT。测试时需注意仅提供任务相关代码文件,以适配模型上下文窗口限制。
背景与挑战
背景概述
SWE-Dev是由上海交通大学等机构的研究团队于2025年推出的首个面向特征驱动开发(Feature-Driven Development, FDD)任务的大规模评估与训练数据集。该数据集包含14,000个训练样本和500个测试样本,源自1,000多个开源项目,每个样本均提供可执行环境及开发者编写的单元测试。作为软件工程领域的重要基准,SWE-Dev专注于评估AI系统在真实代码库中实现新功能的能力,其任务平均涉及190行代码跨3个文件的修改,显著超越了现有基准(如SWE-Bench)的复杂度。该数据集通过动态调用树分析实现任务难度分级,并为监督微调(SFT)、强化学习(RL)和多智能体训练(MAS)提供可验证的执行反馈,推动了自动化编程系统在仓库级开发场景中的研究。
当前挑战
SWE-Dev针对两大核心挑战:1) 领域问题层面,特征驱动开发要求模型理解复杂代码库上下文、处理跨文件依赖关系并实现功能正确集成,现有AI系统在此类任务上表现欠佳(如Claude3.7-Sonnet在困难任务上仅22.45%通过率);2) 构建过程中,需解决测试用例动态追踪(通过pytest生成函数级调用树)、任务难度量化(基于调用树深度和节点数)以及需求文档生成(结合测试文件与GPT-4o增强的docstring)等技术难题。此外,数据集的Python单语言局限性和多智能体训练中的协调效率问题,也为未来研究指明改进方向。
常用场景
经典使用场景
SWE-Dev数据集专为评估和训练自主编码系统在真实世界特征驱动开发(FDD)任务中的表现而设计。其经典使用场景包括模拟在大型现有代码库中开发新功能的完整流程,从需求理解到代码生成和功能验证。数据集通过提供可运行环境和开发者编写的可执行单元测试,支持对模型生成代码的功能正确性进行可靠验证。
实际应用
在实际应用中,SWE-Dev可用于优化AI编程助手的特征开发能力,如GitHub Copilot等工具的进阶训练。其包含的14,000个训练样本支持监督微调(SFT)、强化学习(RL)和多智能体系统(MAS)训练,特别适合提升模型在大型企业级代码库中的功能添加、模块重构等复杂任务的表现。测试集的500个样本则为企业评估编码AI系统提供了标准化基准。
衍生相关工作
该数据集已衍生出多项重要研究工作,包括:1)EvoMAC等基于多智能体协作的代码生成框架,通过角色分工解决复杂开发任务;2)DeepSeek-R1等强化学习方法的改进,利用执行反馈优化模型行为;3)针对长上下文理解的架构创新,如Qwen2.5-Coder的扩展窗口设计。这些工作共同推动了自主编程系统在真实软件开发场景中的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作