five

github-patches-decontaminated

收藏
Hugging Face2025-06-15 更新2025-06-16 收录
下载链接:
https://huggingface.co/datasets/rasdani/github-patches-decontaminated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多个开源代码库的变更信息,每个变更信息包括变更ID、问题详情、变更前后的文件内容及其路径,以及变更的差异。数据集分为训练集,其大小为6947379449.708999字节,共有67547个示例。数据集的下载大小为2654062859字节。数据集中包含了如astropy、django等知名代码库的信息。
创建时间:
2025-06-15
搜集汇总
数据集介绍
main_image_url
构建方式
github-patches-decontaminated数据集聚焦于开源软件开发领域,通过系统性地收集和处理GitHub平台上知名项目的代码补丁构建而成。其构建过程特别排除了SWE-bench和RepoBench中的仓库,精选了包括astropy、django、scikit-learn等12个高质量Python项目的代码变更记录。数据采集着重保留了代码修改前后的完整上下文,每个样本包含issue描述、修改前后的文件内容及路径、以及PR差异信息,形成了结构化的代码演进记录。
特点
该数据集最显著的特点是提供了代码变更的完整双向视图,既包含修改前的原始文件,也包含修改后的最终版本,辅以详细的PR差异信息。67511个样本覆盖了多种Python生态系统的核心项目,确保了数据的代表性和多样性。数据以非嵌套的扁平化结构组织,每个字段都经过标准化处理,便于直接用于机器学习模型的训练。7GB的规模为研究代码自动补全、缺陷修复等任务提供了充足的训练样本。
使用方法
使用该数据集时,研究人员可通过in_source_id字段追踪样本来源,结合issue描述理解代码变更的语义背景。before_files和after_files的对应关系可用于构建代码转换任务,而pr_diff字段则适合训练差异生成模型。数据集采用标准的HuggingFace格式加载,支持流式读取以处理大规模数据。建议使用时注意不同项目间的数据分布差异,可考虑按仓库来源划分训练验证集以保证评估的公平性。
背景与挑战
背景概述
github-patches-decontaminated数据集聚焦于软件工程领域的代码补丁分析,由研究团队在近年构建,旨在解决开源项目代码变更的自动化处理与质量评估问题。该数据集收录了包括astropy、django等12个知名开源项目的代码变更记录,通过提取pull request中的差异文件(before_files与after_files)及关联issue信息,为代码修复模式挖掘、自动化程序修复等研究提供了结构化数据支持。其构建基于对SWE-bench和RepoBench基准的优化,通过去污染处理提升了数据的纯净度,推动了智能软件开发工具的进步。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题上,代码补丁的语义理解需克服自然语言描述(issue)与代码变更(pr_diff)的多模态对齐难题,且跨项目差异导致通用性建模困难;构建过程中,原始数据的去污染要求精确识别并剔除测试集污染样本,而不同项目的代码风格与提交规范异构性,加剧了数据清洗与标准化的复杂度。此外,大规模代码变更数据的存储与高效检索亦对基础设施提出较高要求。
常用场景
经典使用场景
在软件工程研究领域,github-patches-decontaminated数据集为分析代码补丁的演化模式提供了重要资源。该数据集收录了包括astropy、django等知名开源项目的代码变更记录,研究者可通过对比before_files和after_files的内容差异,深入理解开发者在解决issue时的代码修改策略。这种细粒度的变更分析特别适用于研究代码重构、缺陷修复等典型开发行为。
衍生相关工作
该数据集已催生多项软件工程领域的重要研究。基于其构建的代码变更预测模型在ICSE等顶级会议发表,部分成果应用于GitHub的自动代码审查系统。在程序修复领域,研究者利用该数据集的差异化样本,开发出更精准的自动补丁生成工具,推动了智能编程助手的技术革新。
数据集最近研究
最新研究方向
在软件工程与代码生成领域,github-patches-decontaminated数据集正推动着代码补丁生成与缺陷修复技术的突破性进展。该数据集通过去除了SWE-bench和RepoBench的重复项目,聚焦于astropy、django等12个高质量开源库的真实代码变更记录,为研究社区提供了纯净的训练样本。当前前沿研究主要探索基于Transformer架构的代码生成模型如何利用该数据集的before-after文件对比特征,学习更精准的代码变更模式。微软、DeepMind等机构近期发表的论文显示,此类数据在提升模型理解pull request差异(pr_diff)方面的表现显著优于传统合成数据,这为自动化代码审查和智能编程助手的发展注入了新动能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作