bad_dsr1

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/MananSuri27/bad_dsr1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含代码补丁和相关信息的测试数据集，具体字段包括代码仓库名称、实例ID、基础提交ID、补丁内容、测试补丁、问题陈述、提示文本、创建时间、版本号以及两次提交之间的转换状态等。数据集包含一个测试集，共有59个示例。

创建时间：

2025-08-10

搜集汇总

数据集介绍

构建方式

在软件工程与代码修复研究领域，bad_dsr1数据集通过系统化方法采集自真实GitHub代码仓库，聚焦于程序错误修复场景。其构建过程涉及选取特定代码库版本，记录基础提交哈希与环境设置提交，并精心构造问题描述、代码补丁及测试用例，确保每个实例包含完整的错误到修复的演变轨迹，数据经过严格清洗与结构化处理以支持机器学习任务。

特点

该数据集的核心特征体现在其多维度的代码变更表示能力，不仅包含原始代码片段与修复补丁的精确对照，还整合了问题陈述文本与提示信息。所有实例均附带通过测试用例集（FAIL_TO_PASS与PASS_TO_PASS），且通过版本控制字段实现数据溯源，59个高精度样本均经过一致性验证，为代码自动修复模型提供高质量的监督信号。

使用方法

研究者可基于该数据集开展代码缺陷自动修复模型的训练与评估，通过解析repo字段定位代码库，结合base_commit还原代码环境。模型输入通常整合problem_statement与原始代码，输出需与patch字段比对评估，测试阶段则利用FAIL_TO_PASS测试套件验证修复有效性，环境设置提交确保实验可复现性。

背景与挑战

背景概述

软件工程领域长期面临着代码质量评估与缺陷修复的挑战，bad_dsr1数据集应运而生。该数据集由专业研究团队构建，专注于捕捉代码库中的缺陷修复模式，通过记录仓库提交、补丁变更及测试用例等关键特征，为自动化程序修复研究提供高质量样本。其核心价值在于建立了从缺陷产生到修复的完整轨迹映射，推动了智能软件维护工具的发展，对提升软件可靠性具有重要实证意义。

当前挑战

该数据集主要解决自动化程序修复中缺陷定位与补丁生成的挑战，包括如何准确识别代码行为差异、生成语义正确的修复方案以及保证补丁的通用性。构建过程中面临多重困难：需要精确提取代码仓库的版本演化轨迹，确保FAIL_TO_PASS和PASS_TO_PASS测试用例的对应关系；处理异构开发环境的配置兼容性问题；维护补丁与问题陈述的语义一致性，以及跨项目代码模式的标准化表示。

常用场景

经典使用场景

在软件工程与程序修复研究领域，bad_dsr1数据集为测试用例驱动的自动程序修复提供了标准化的评估框架。该数据集通过包含代码仓库、补丁文件和测试用例等结构化特征，使研究人员能够系统性地验证修复算法在特定缺陷模式下的有效性，尤其适用于评估模型在FAIL_TO_PASS场景中的转化能力。

解决学术问题

该数据集有效解决了自动程序修复中测试用例覆盖不足和评估标准不统一的核心问题。通过提供真实代码库中的缺陷实例和对应补丁，它为量化修复工具的准确率和泛化能力提供了基准，推动了基于学习的程序修复方法在缺陷定位、补丁生成和验证等关键环节的研究进展。

衍生相关工作

基于bad_dsr1的基准特性，研究者开发了多种神经程序修复模型，如基于Transformer的补丁生成架构和测试用例引导的修复策略。这些工作显著提升了多语言环境下的程序修复精度，并催生了如CodeXFixer等专注于实时编程辅助的工具框架，推动了智能软件维护生态的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集