github-patches-decontaminated

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/rasdani/github-patches-decontaminated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个开源代码库的变更信息，每个变更信息包括变更ID、问题详情、变更前后的文件内容及其路径，以及变更的差异。数据集分为训练集，其大小为6947379449.708999字节，共有67547个示例。数据集的下载大小为2654062859字节。数据集中包含了如astropy、django等知名代码库的信息。

创建时间：

2025-06-15

搜集汇总

数据集介绍

构建方式

github-patches-decontaminated数据集聚焦于开源软件开发领域，通过系统性地收集和处理GitHub平台上知名项目的代码补丁构建而成。其构建过程特别排除了SWE-bench和RepoBench中的仓库，精选了包括astropy、django、scikit-learn等12个高质量Python项目的代码变更记录。数据采集着重保留了代码修改前后的完整上下文，每个样本包含issue描述、修改前后的文件内容及路径、以及PR差异信息，形成了结构化的代码演进记录。

特点

该数据集最显著的特点是提供了代码变更的完整双向视图，既包含修改前的原始文件，也包含修改后的最终版本，辅以详细的PR差异信息。67511个样本覆盖了多种Python生态系统的核心项目，确保了数据的代表性和多样性。数据以非嵌套的扁平化结构组织，每个字段都经过标准化处理，便于直接用于机器学习模型的训练。7GB的规模为研究代码自动补全、缺陷修复等任务提供了充足的训练样本。

使用方法

使用该数据集时，研究人员可通过in_source_id字段追踪样本来源，结合issue描述理解代码变更的语义背景。before_files和after_files的对应关系可用于构建代码转换任务，而pr_diff字段则适合训练差异生成模型。数据集采用标准的HuggingFace格式加载，支持流式读取以处理大规模数据。建议使用时注意不同项目间的数据分布差异，可考虑按仓库来源划分训练验证集以保证评估的公平性。

背景与挑战

背景概述

github-patches-decontaminated数据集聚焦于软件工程领域的代码补丁分析，由研究团队在近年构建，旨在解决开源项目代码变更的自动化处理与质量评估问题。该数据集收录了包括astropy、django等12个知名开源项目的代码变更记录，通过提取pull request中的差异文件（before_files与after_files）及关联issue信息，为代码修复模式挖掘、自动化程序修复等研究提供了结构化数据支持。其构建基于对SWE-bench和RepoBench基准的优化，通过去污染处理提升了数据的纯净度，推动了智能软件开发工具的进步。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题上，代码补丁的语义理解需克服自然语言描述（issue）与代码变更（pr_diff）的多模态对齐难题，且跨项目差异导致通用性建模困难；构建过程中，原始数据的去污染要求精确识别并剔除测试集污染样本，而不同项目的代码风格与提交规范异构性，加剧了数据清洗与标准化的复杂度。此外，大规模代码变更数据的存储与高效检索亦对基础设施提出较高要求。

常用场景

经典使用场景

在软件工程研究领域，github-patches-decontaminated数据集为分析代码补丁的演化模式提供了重要资源。该数据集收录了包括astropy、django等知名开源项目的代码变更记录，研究者可通过对比before_files和after_files的内容差异，深入理解开发者在解决issue时的代码修改策略。这种细粒度的变更分析特别适用于研究代码重构、缺陷修复等典型开发行为。

衍生相关工作

该数据集已催生多项软件工程领域的重要研究。基于其构建的代码变更预测模型在ICSE等顶级会议发表，部分成果应用于GitHub的自动代码审查系统。在程序修复领域，研究者利用该数据集的差异化样本，开发出更精准的自动补丁生成工具，推动了智能编程助手的技术革新。

数据集最近研究