SWE-Dev-train
收藏Hugging Face2025-04-22 更新2025-04-23 收录
下载链接:
https://huggingface.co/datasets/THUDM/SWE-Dev-train
下载链接
链接失效反馈官方服务:
资源简介:
SWE-Dev数据集是一个面向软件工程任务的开发人员数据集,从GitHub仓库中创建,包括问题跟踪、代码定位、测试用例生成和评估等。该数据集由79.97%的SWE-Dev和20.03%的nebius组成,用于训练SWE-Dev模型,这些模型在SWE-bench-Verified上的解决率分别达到了23.4%(SWE-Dev-7B)和36.6%(SWE-Dev-32B),接近GPT-4o的性能。
提供机构:
Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University
创建时间:
2025-04-15
搜集汇总
数据集介绍

构建方式
在软件工程智能化研究领域,SWE-Dev-train数据集通过系统化采集GitHub开源项目数据构建而成。其采用多阶段处理流程,涵盖问题追踪、代码定位、测试用例生成等关键环节,结合OpenHands框架进行数据清洗与标注。数据来源中79.97%源自SWE-Dev自有处理流程,20.03%来自nebius平台,最终形成包含17,871个样本的标准化训练集。
特点
该数据集显著特点在于其专业针对软件工程代理开发场景,结构化存储对话式交互数据,每个样本包含角色标识和内容文本的双字段输入。数据规模达923MB,覆盖多种代码维护场景,经实证可使模型在SWE-bench基准上的解决率提升至36.6%。其独特价值体现在高质量数据与强化微调技术的协同效应,支持模型通过多轮推理实现性能跃升。
使用方法
研究人员可通过HuggingFace平台直接加载数据集,默认配置包含完整的训练分割。建议配合Qwen或GLM系列预训练模型使用,特别适用于代码生成、缺陷修复等下游任务。官方提供7B至32B不同参数规模的适配模型,用户可根据计算资源选择相应版本进行微调。数据集的对话式结构支持直接应用于指令微调场景,通过调整推理轮次可观察到明显的性能增长趋势。
背景与挑战
背景概述
SWE-Dev-train数据集由清华大学知识工程组(KEG)于2024年推出的面向软件工程任务的专用数据集。该数据集基于OpenHands开源框架构建,旨在通过从GitHub仓库提取开发者行为数据(包括问题追踪、代码定位、测试用例生成等),为AI辅助编程提供高质量训练资源。其核心研究聚焦于如何通过数据扩展和推理优化提升模型在SWE-bench等软件工程基准测试中的表现,其中SWE-Dev-32B模型在SWE-bench-Verified测试集上达到36.6%的解决率,接近GPT-4o水平。该数据集通过强化微调(RFT)技术显著提升了数据质量与模型性能的协同效应,为自动化软件开发领域提供了新的研究范式。
当前挑战
在解决软件工程自动化问题方面,该数据集面临模型对复杂代码逻辑的理解深度不足、跨仓库上下文关联能力有限等核心挑战。数据构建过程中需克服多模态数据处理(如代码变更与issue描述的关联)、测试用例的语义完整性验证等技术难点。特别值得注意的是,如何平衡数据规模扩展(78%来自SWE-Dev原始数据)与质量控制的矛盾,以及处理不同代码库间的异构性(20%数据来自nebius平台),成为影响模型泛化能力的关键因素。推理阶段的回合数优化(从30轮增至75轮提升2.6%性能)也暴露出计算效率与精度的权衡难题。
常用场景
经典使用场景
在软件工程领域,SWE-Dev-train数据集为开发者提供了一个全面的训练平台,特别适用于自动化代码修复和测试用例生成任务。通过整合GitHub仓库中的问题跟踪和代码定位信息,该数据集能够模拟真实的软件开发环境,帮助研究人员和开发者构建高效的自动化工具。其多轮推理机制和高质量数据标注进一步提升了模型在复杂任务中的表现。
实际应用
在实际应用中,SWE-Dev-train数据集被广泛用于构建智能代码助手和自动化测试工具。开发者可以利用该数据集训练模型,实现代码错误的自动检测和修复,大幅提升开发效率。此外,该数据集还支持测试用例的自动生成,帮助团队在持续集成和交付流程中保持代码质量。
衍生相关工作
基于SWE-Dev-train数据集,研究者们开发了多个经典模型,如SWE-Dev-7B和SWE-Dev-32B,这些模型在SWE-bench-Verified测试中分别达到了23.4%和36.6%的解决率。这些成果不仅验证了数据集的实用性,还为后续的软件工程自动化研究提供了重要的参考和基础。
以上内容由遇见数据集搜集并总结生成



