five

Clean_Microsoft_InferredBugs

收藏
Hugging Face2025-08-15 更新2025-08-16 收录
下载链接:
https://huggingface.co/datasets/ypguo/Clean_Microsoft_InferredBugs
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含Java和C#语言的数据集,其中每个bug都被标记在<bug>和</bug>标签之间。数据集提供了文件和方法的原始代码(file_before和method_before),以及修复后的代码(method_after)。所有的注释和空行都已经被移除。数据集包含的列有:id、bug_type、bug_reason、file_before、method_before、bug_template、method_after和fix_template。此外,数据集还特别处理了微软InferredBugs数据集中的一些不符合条件的bug。
创建时间:
2025-08-15
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,高质量的缺陷数据集对代码缺陷检测与修复研究至关重要。Clean_Microsoft_InferredBugs数据集基于微软InferredBugs原始数据,通过系统化清洗流程构建而成。研究者移除了原始数据中存在行号矛盾的样本(即缺陷代码行号超出文件总行号的情况),确保约2700个Java缺陷样本能准确定位在file_before文件中。所有缺陷代码均采用<bug></bug>标签精准标注,并统一清除了file_before、method_before和method_after列中的注释与空行,形成了标准化的代码模板结构。
特点
该数据集显著特征体现在多维度的结构化标注体系。不仅完整保留了Java和C#两种主流语言的缺陷样本,更通过特定标签实现缺陷代码的精准定位。所有方法样本均遵循统一的代码模板规范,变量命名采用规范化占位符(如variable_1、Class_2等),既保护了原始代码逻辑又确保格式统一。数据集包含id、bug_type、bug_reason等八类字段,其中file_before和method_before双维度标注缺陷位置,配合method_after的修复后代码,构成完整的缺陷修复研究链条。
使用方法
研究者可利用该数据集开展深度代码缺陷分析,通过解析<bug></bug>标签快速定位缺陷代码片段。file_before列提供完整文件上下文,method_before与method_after的对比能清晰展现修复模式。代码模板设计支持变量替换实验,便于构建机器学习模型的输入特征。特别值得注意的是,清洗后的纯净数据可直接用于缺陷预测模型训练,而bug_type和bug_reason字段则为缺陷分类研究提供标注基础。使用时应结合bug_template和fix_template分析修复策略的共性规律。
背景与挑战
背景概述
Clean_Microsoft_InferredBugs数据集由微软研究院主导构建,旨在为软件工程领域的缺陷检测与修复研究提供高质量标注数据。该数据集聚焦于Java和C#两种主流编程语言,通过精确标注代码中的缺陷片段及其修复版本,为自动化程序修复技术的研究奠定了重要基础。数据集采用<bug></bug>标签对缺陷代码进行结构化标注,并剔除了注释和空行等干扰因素,显著提升了机器学习模型在代码缺陷识别任务中的训练效率。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,如何准确界定代码缺陷的边界及其语义特征仍存在困难,特别是当缺陷涉及复杂控制流或跨文件依赖时;在构建过程层面,原始数据中存在大量缺陷代码行号与文件实际行数不匹配的情况,需通过严格的清洗规则进行筛选。此外,完全移除注释和空行虽提升了数据一致性,但可能丢失与缺陷相关的上下文信息,为模型理解代码语义带来潜在困难。
常用场景
经典使用场景
在软件工程领域,Clean_Microsoft_InferredBugs数据集为研究代码缺陷检测与修复提供了重要资源。该数据集通过标注Java和C#代码中的缺陷片段,使研究者能够精确识别出代码中的错误模式。其经典应用场景包括训练机器学习模型来自动识别潜在缺陷,以及验证静态分析工具的有效性。数据集中的bug标签和清理后的代码结构,为算法提供了标准化的输入格式。
实际应用
在实际开发中,Clean_Microsoft_InferredBugs数据集可集成到持续集成流程中,帮助开发团队提前发现潜在缺陷。其标注的缺陷模式能够指导代码审查工具的设计,提升审查效率。企业可利用该数据集训练定制化的缺陷检测模型,从而减少软件维护成本并提高产品可靠性。
衍生相关工作
围绕该数据集,学术界已衍生出多项经典研究,包括基于深度学习的缺陷预测模型和自动化程序修复技术。部分工作专注于挖掘缺陷模板的共性特征,以构建更通用的缺陷检测框架。这些研究不仅验证了数据集的价值,还进一步拓展了其在智能软件开发中的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作