five

SWE-build

收藏
Hugging Face2025-11-17 更新2025-11-18 收录
下载链接:
https://huggingface.co/datasets/gwc000/SWE-build
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了代码补丁相关的信息,如补丁的ID、补丁内容、补丁状态的转换(失败到成功、成功到成功)、图片名称、代码仓库、问题陈述、GitHub链接、文件数量、编程语言以及创建、更新和推送的时间。数据集分为训练集,包含9个示例,大小为410160字节。
创建时间:
2025-11-15
原始信息汇总

SWE-build数据集概述

数据集基本信息

  • 数据集名称:SWE-build
  • 存储位置:https://huggingface.co/datasets/gwc000/SWE-build
  • 数据量:410,160字节
  • 下载大小:158,456字节
  • 样本数量:9个训练样本

数据结构特征

数据字段

  • instance_id:字符串类型,实例标识符
  • patch:字符串类型,代码补丁
  • FAIL_TO_PASS:字符串类型,失败到通过的转换
  • PASS_TO_PASS:字符串类型,通过到通过的转换
  • image_name:字符串类型,镜像名称
  • repo:字符串类型,代码仓库
  • problem_statement:字符串类型,问题描述
  • github_url:字符串类型,GitHub链接
  • file_count:int64类型,文件数量
  • language:字符串类型,编程语言
  • created_at:字符串类型,创建时间
  • updated_at:字符串类型,更新时间
  • pushed_at:字符串类型,推送时间

数据划分

  • 训练集:包含9个样本,占用410,160字节

数据配置

  • 配置名称:default
  • 数据文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,SWE-build数据集通过系统化方法收集真实世界代码库中的补丁实例,每个样本包含实例标识、补丁内容及测试状态转换信息。构建过程基于GitHub平台的开源项目,筛选具有明确问题描述和修复记录的代码变更,确保数据来源的可靠性和时效性。通过提取FAIL_TO_PASS和PASS_TO_PASS等关键字段,完整记录了代码修复前后的状态演变,为软件缺陷修复研究提供了结构化基础。
特点
该数据集以多维度特征见长,涵盖代码补丁、仓库元数据及问题描述等核心要素。其独特之处在于同时捕获测试失败到通过(FAIL_TO_PASS)与测试通过到通过(PASS_TO_PASS)的代码变更路径,完整呈现软件演化的不同场景。数据集还集成开发环境上下文,包括文件数量、编程语言和时间戳等信息,为分析代码修复模式提供了丰富的语义特征和时空维度。
使用方法
使用者可通过标准数据加载接口访问训练集分割,直接获取包含实例ID、补丁内容和测试状态的结构化数据。典型应用场景包括代码自动修复模型的训练与验证,通过对比FAIL_TO_PASS与PASS_TO_PASS样本可深入理解软件维护机制。研究人员还可结合GitHub链接追溯完整开发历史,利用多语言代码样本开展跨编程语言的软件工程实证研究。
背景与挑战
背景概述
随着软件工程领域对自动化代码修复技术的迫切需求,SWE-build数据集应运而生,聚焦于程序补丁生成与验证的核心研究问题。该数据集由前沿研究机构构建,通过收集真实GitHub仓库中的代码变更记录,系统化地呈现了从测试失败到测试通过的程序演化轨迹。其创新性地整合了多维度特征如问题描述、代码补丁和版本元数据,为智能编程辅助系统提供了关键训练资源,显著推动了自动化软件维护技术的研究进程。
当前挑战
在解决程序自动修复问题时,模型需精准理解复杂代码语义并生成符合测试要求的有效补丁,这要求同时克服语法正确性与功能等价性的双重约束。数据集构建过程中,研究人员面临真实场景代码变更稀疏性的挑战,需从海量提交记录中筛选具有完整测试状态转换的样本。此外,跨项目代码风格的差异性以及测试用例覆盖度的不均衡性,进一步增加了数据标准化与质量控制的难度。
常用场景
经典使用场景
在软件工程领域,SWE-build数据集为自动化程序修复研究提供了重要支持。该数据集通过收集真实GitHub仓库中的代码补丁,构建了从测试失败到测试通过的转换实例,成为评估代码修复模型性能的核心基准。研究者利用其结构化数据训练机器学习模型,模拟开发者在实际项目中识别和修正代码缺陷的过程,显著提升了自动化调试系统的准确性和泛化能力。
实际应用
在工业实践中,SWE-build数据集支撑的自动化修复技术已应用于持续集成流程。开发团队可借助基于该数据集训练的模型,快速定位构建失败的根本原因,并生成符合编码规范的修复建议。这种技术显著缩短了软件调试周期,在大型分布式系统维护中尤为突出,为GitHub等代码托管平台的智能辅助开发功能提供了核心技术支撑。
衍生相关工作
该数据集催生了多项具有影响力的衍生研究,包括基于深度学习的程序补丁生成框架和代码变更分析工具。研究者通过扩展其数据范式开发出支持多编程语言的修复系统,如结合抽象语法树分析的神经网络模型。这些工作不仅完善了自动化软件维护的理论体系,还推动了智能编程助手、代码审查自动化等实际应用的发展与落地。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作