bad_q3c

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/MananSuri27/bad_q3c

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个字段，如仓库信息、实例ID、基础提交记录、补丁代码、测试补丁代码、问题描述、提示信息、创建时间、版本信息、失败转成功的记录、成功转成功的记录以及环境设置提交记录。数据集分为测试集，共有59个示例，总存储大小为1108979字节，下载大小为424355字节。

创建时间：

2025-08-10

搜集汇总

数据集介绍

构建方式

在软件工程与代码质量分析领域，bad_q3c数据集通过系统化方法构建，其核心数据源自真实代码仓库的版本提交记录。每个样本均包含代码库标识、实例ID、基础提交哈希及补丁内容，并整合了测试补丁与问题描述文本。数据采集过程注重版本一致性，环境设置提交与创建时间戳确保了实验可复现性，FAIL_TO_PASS和PASS_TO_PASS字段则精确记录了代码演化状态。

特点

该数据集显著特征体现在多维度代码变更的结构化表征，涵盖59个测试样本的完整代码演化轨迹。特征字段如problem_statement和hints_text提供了自然语言层面的语义标注，而patch与test_patch的并行存储支持差分分析。数据以单一测试集划分呈现，规模约1.1MB，兼具轻量化与高精度特性，适用于代码修复模式的细粒度研究。

使用方法

使用本数据集时需通过HuggingFace数据加载接口获取默认配置，重点解析repo与instance_id以追踪代码实体。研究者可结合base_commit还原代码库初始状态，通过对比patch与test_patch分析测试用例演进逻辑。FAIL_TO_PASS字段适用于缺陷修复模型训练，而PASS_TO_PASS字段可用于代码优化研究，环境设置提交则为复现实验环境提供关键基准。

背景与挑战

背景概述

在软件工程与自动化程序修复领域，bad_q3c数据集由研究团队于近年构建，专注于代码缺陷修复与测试验证的核心问题。该数据集通过收集多个代码仓库的具体实例，记录了基础提交、补丁修改、测试用例及问题描述等关键特征，旨在推动智能编程辅助工具的发展，提升自动化错误定位与修复技术的准确性与效率，对促进软件质量保障具有重要意义。

当前挑战

该数据集致力于应对代码缺陷自动修复中的关键挑战，包括复杂代码上下文的语义理解、多维度测试通过率的验证以及跨版本环境的一致性维护。在构建过程中，研究人员需克服数据采集的完整性保障、补丁与测试用例的精确匹配以及大规模代码仓库的版本控制复杂性，这些因素共同增加了数据集构建的技术难度与可靠性要求。

常用场景

经典使用场景

在软件工程与程序修复研究领域，bad_q3c数据集为自动化代码修正技术提供了关键评估基准。该数据集通过收集真实Git仓库中的代码变更记录，包含基础提交、补丁文件及测试用例等结构化数据，使研究人员能够系统评估模型在缺陷定位和修复方面的性能。其经典应用体现在构建端到端的程序修复 pipeline，通过分析FAIL_TO_PASS和PASS_TO_PASS的测试状态转换，量化自动化修复工具的有效性和可靠性。

解决学术问题

该数据集有效解决了自动化程序修复研究中缺乏标准化评估基准的学术难题。通过提供包含问题陈述、环境配置和版本控制的完整代码变更链，研究者能够精确分析缺陷引入和修复的因果关系。其重要意义在于建立了可复现的评估框架，克服了传统合成数据与真实场景脱节的问题，推动了基于机器学习的程序修复方法在泛化性和实用性方面的突破性进展。

衍生相关工作

该数据集催生了多项程序修复领域的创新研究，例如基于Transformer的序列到序列修复模型和基于图神经网络的缺陷传播分析系统。相关经典工作包括结合强化学习的动态补丁生成框架，以及基于跨版本代码对比的缺陷预测算法。这些衍生研究显著推进了智能软件工程领域的发展，为构建下一代自动化软件开发工具链奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集