Clean_Microsoft_InferredBugs

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/ypguo/Clean_Microsoft_InferredBugs

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含Java和C#语言的数据集，其中每个bug都被标记在<bug>和</bug>标签之间。数据集提供了文件和方法的原始代码（file_before和method_before），以及修复后的代码（method_after）。所有的注释和空行都已经被移除。数据集包含的列有：id、bug_type、bug_reason、file_before、method_before、bug_template、method_after和fix_template。此外，数据集还特别处理了微软InferredBugs数据集中的一些不符合条件的bug。

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在软件工程领域，高质量的缺陷数据集对代码缺陷检测与修复研究至关重要。Clean_Microsoft_InferredBugs数据集基于微软InferredBugs原始数据，通过系统化清洗流程构建而成。研究者移除了原始数据中存在行号矛盾的样本（即缺陷代码行号超出文件总行号的情况），确保约2700个Java缺陷样本能准确定位在file_before文件中。所有缺陷代码均采用<bug></bug>标签精准标注，并统一清除了file_before、method_before和method_after列中的注释与空行，形成了标准化的代码模板结构。

特点

该数据集显著特征体现在多维度的结构化标注体系。不仅完整保留了Java和C#两种主流语言的缺陷样本，更通过特定标签实现缺陷代码的精准定位。所有方法样本均遵循统一的代码模板规范，变量命名采用规范化占位符（如variable_1、Class_2等），既保护了原始代码逻辑又确保格式统一。数据集包含id、bug_type、bug_reason等八类字段，其中file_before和method_before双维度标注缺陷位置，配合method_after的修复后代码，构成完整的缺陷修复研究链条。

使用方法

研究者可利用该数据集开展深度代码缺陷分析，通过解析<bug></bug>标签快速定位缺陷代码片段。file_before列提供完整文件上下文，method_before与method_after的对比能清晰展现修复模式。代码模板设计支持变量替换实验，便于构建机器学习模型的输入特征。特别值得注意的是，清洗后的纯净数据可直接用于缺陷预测模型训练，而bug_type和bug_reason字段则为缺陷分类研究提供标注基础。使用时应结合bug_template和fix_template分析修复策略的共性规律。

背景与挑战

背景概述

Clean_Microsoft_InferredBugs数据集由微软研究院主导构建，旨在为软件工程领域的缺陷检测与修复研究提供高质量标注数据。该数据集聚焦于Java和C#两种主流编程语言，通过精确标注代码中的缺陷片段及其修复版本，为自动化程序修复技术的研究奠定了重要基础。数据集采用<bug></bug>标签对缺陷代码进行结构化标注，并剔除了注释和空行等干扰因素，显著提升了机器学习模型在代码缺陷识别任务中的训练效率。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确界定代码缺陷的边界及其语义特征仍存在困难，特别是当缺陷涉及复杂控制流或跨文件依赖时；在构建过程层面，原始数据中存在大量缺陷代码行号与文件实际行数不匹配的情况，需通过严格的清洗规则进行筛选。此外，完全移除注释和空行虽提升了数据一致性，但可能丢失与缺陷相关的上下文信息，为模型理解代码语义带来潜在困难。

常用场景

经典使用场景

在软件工程领域，Clean_Microsoft_InferredBugs数据集为研究代码缺陷检测与修复提供了重要资源。该数据集通过标注Java和C#代码中的缺陷片段，使研究者能够精确识别出代码中的错误模式。其经典应用场景包括训练机器学习模型来自动识别潜在缺陷，以及验证静态分析工具的有效性。数据集中的bug标签和清理后的代码结构，为算法提供了标准化的输入格式。

实际应用

在实际开发中，Clean_Microsoft_InferredBugs数据集可集成到持续集成流程中，帮助开发团队提前发现潜在缺陷。其标注的缺陷模式能够指导代码审查工具的设计，提升审查效率。企业可利用该数据集训练定制化的缺陷检测模型，从而减少软件维护成本并提高产品可靠性。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究，包括基于深度学习的缺陷预测模型和自动化程序修复技术。部分工作专注于挖掘缺陷模板的共性特征，以构建更通用的缺陷检测框架。这些研究不仅验证了数据集的价值，还进一步拓展了其在智能软件开发中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集