Defects4J
收藏Hugging Face2025-05-22 更新2025-05-23 收录
下载链接:
https://huggingface.co/datasets/CoQuIR/Defects4J
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个文本检索数据集,包含从Defects4J来源的单语言文档和查询信息。它由三种配置组成:default配置包含查询和文档的ID信息,正反例文档ID列表,以及类型和元数据;corpus配置包含文档的ID、来源、语言、标题、文本和元数据;query配置包含查询的ID、来源、语言、标题、文本和元数据。数据集分为测试集、语料库和查询三部分,分别包含467个、934个示例。
This dataset is a text retrieval dataset containing monolingual documents and query information sourced from Defects4J. It consists of three configurations: the default configuration includes ID information for queries and documents, lists of positive and negative document IDs, as well as type and metadata; the corpus configuration includes document ID, source, language, title, text and metadata; the query configuration includes query ID, source, language, title, text and metadata. The dataset is divided into three parts: test set, corpus, and queries, which contain 467 and 934 examples respectively.
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
在软件工程领域,Defects4J数据集通过系统化收集真实开源项目中的缺陷修复案例构建而成。该数据集从多个Java项目中提取了包含缺陷的代码片段及其修复版本,每个案例均经过人工验证确保准确性。构建过程涵盖了缺陷定位、补丁生成和测试用例验证等关键环节,形成了具有高度可信度的基准数据。
特点
该数据集呈现出高度结构化的特征,包含查询、语料库和相关性标注三个核心模块。每个缺陷案例均配备完整的元数据描述,涵盖代码语言、项目来源等维度。其独特之处在于同时提供正向和负向文档标识,支持复杂的检索任务评估。数据集规模适中但质量精良,为代码缺陷研究提供了标准化实验环境。
使用方法
研究人员可通过加载预定义的配置模块快速接入数据集,其中corpus配置包含全部代码文档,query配置存储检索请求,default配置则提供标准测试集。使用时可分别调用各模块实现端到端的检索系统评估,通过匹配查询与语料库中的代码片段来验证模型性能。该设计支持灵活的基准测试和跨系统比较研究。
背景与挑战
背景概述
Defects4J数据集作为软件工程领域的重要基准工具,由美国马萨诸塞大学阿默斯特分校的研究团队于2014年主导开发。该数据集聚焦于程序缺陷自动修复与软件测试技术验证,系统收集了来自多个开源Java项目的真实软件缺陷案例。其核心价值在于为软件质量保障研究提供了标准化实验平台,显著推动了缺陷定位、测试用例生成等方向的方法创新与性能评估。
当前挑战
在解决软件缺陷检测这一核心问题时,数据集需应对多维度挑战:真实缺陷的复杂语义表征、缺陷模式与修复策略的异构性、以及测试用例与程序行为的动态关联。构建过程中面临的主要困难包括:从版本控制系统中精确提取可复现的缺陷-修复对,确保缺陷触发条件与修复补丁的完整性,以及建立跨项目缺陷模式的统一标注规范。
常用场景
经典使用场景
在软件工程研究领域,Defects4J数据集作为基准测试工具被广泛应用于自动程序修复技术的验证与评估。该数据集通过精心收集的真实软件缺陷案例,为研究人员提供了标准化的实验平台,使得不同修复算法的性能比较具有可靠性和可重复性。其结构化的问题-解决方案对形式,特别适用于训练和测试基于机器学习的程序自动修复模型。
衍生相关工作
基于Defects4J数据集,学术界涌现出诸多创新性研究。例如,Prophet和Genesis等自动程序修复系统利用该数据集进行模型训练和性能验证。在缺陷预测领域,DeepBugs和BugLab等工作通过分析Defects4J中的缺陷模式,开发出基于深度学习的代码质量评估方法。这些衍生研究共同推动了智能软件工程技术的进步。
数据集最近研究
最新研究方向
在软件工程领域,Defects4J作为代码缺陷分析的重要基准数据集,正推动着智能程序修复与缺陷定位的前沿探索。当前研究聚焦于结合大语言模型的代码理解能力,通过检索增强生成技术精准匹配缺陷模式与修复策略,显著提升了自动化程序修复的准确率。随着DevOps实践中持续集成需求的增长,该数据集已成为评估代码质量分析工具性能的核心标准,为构建自适应软件维护系统提供了关键实验支撑。
以上内容由遇见数据集搜集并总结生成



