ReDef (Revert-based Defect dataset)

Name: ReDef (Revert-based Defect dataset)
Creator: 韩国科学技术院（KAIST）, 韩国全北国立大学
Published: 2025-09-11 15:07:11
License: 暂无描述

arXiv2025-09-11 更新2025-11-24 收录

下载链接：

https://figshare.com/s/4f202bc0921e26b41dc2

下载链接

链接失效反馈

官方服务：

资源简介：

ReDef数据集是从22个大规模的C/C++项目中收集的，它是一个高置信度的即时软件缺陷预测数据集，其中包含通过回滚操作锚定和GPT辅助过滤的函数级修改。该数据集进一步通过手动抽样验证其可靠性，包含3,164个缺陷修改和10,268个清洁修改，总共有13,332个条目。ReDef数据集旨在为即时软件缺陷预测提供更可靠的数据支持，帮助研究人员更好地理解和预测代码中的缺陷。

提供机构：

韩国科学技术院（KAIST）, 韩国全北国立大学

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

在软件缺陷预测领域，传统数据集常因标签噪声和低精度问题而受限。ReDef数据集通过创新构建流程应对这一挑战，从22个大规模C/C++项目中提取函数级修改，以回退提交作为缺陷案例的锚点，清洁案例则通过历史回溯验证。采用GPT辅助的三阶段筛选机制，通过多轮投票和审计保守过滤模糊实例，最终形成包含3,164个缺陷案例和10,268个清洁案例的高置信度语料库。

特点

该数据集以函数级修改为分析单元，通过时间尊重型分割策略确保训练集与测试集无时序泄露。其核心优势在于标签的高可靠性，人工审计显示缺陷标签精确度达92%，显著优于传统SZZ方法。数据规模兼顾深度学习需求，同时提供完整的修改前后函数上下文，支持多种代码表示形式的实验验证。

使用方法

研究者可利用该数据集进行即时缺陷预测模型的训练与评估，特别适用于预训练语言模型的微调实验。支持五种输入编码策略的对比研究，包括完整函数表示、差异标记和前后快照拼接等形式。通过反事实扰动测试可深入探究模型对代码修改语义的理解能力，为缺陷预测研究提供可靠的基准平台。

背景与挑战

背景概述

即时软件缺陷预测在代码审查与持续集成流程中具有关键作用，旨在精准识别可能引入缺陷的代码变更。传统数据集常因标签噪声与缺陷引入提交定位不准确而受限。为应对此问题，韩国科学技术院等机构的研究团队于2025年提出了ReDef数据集，该数据集基于22个大规模C/C++项目的函数级修改构建，通过回退提交锚定缺陷案例，并采用GPT辅助的多轮审计机制确保标签可靠性。其包含3,164个缺陷案例与10,268个清洁案例，为预训练语言模型的代码变更理解研究提供了高置信度基准。

当前挑战

在即时缺陷预测领域，现有方法面临两大核心挑战：其一，传统SZZ算法衍生的标签存在显著噪声，错误将重构等常规修改误判为缺陷引入，导致模型评估失真；其二，构建高可靠性数据集需克服标注一致性难题，ReDef通过回退提交验证与历史筛查机制降低误标风险，但仍需应对多项目代码异构性及长周期提交追溯的复杂性。此外，预训练模型对代码变更的语义理解尚显薄弱，依赖表层特征而非深层编辑逻辑，亟待开发更具判别力的编码策略。

常用场景

经典使用场景

在软件工程领域，ReDef数据集为即时缺陷预测研究提供了高置信度的基准平台。该数据集通过回退提交锚定缺陷修改，结合历史验证和GPT辅助筛选，构建了包含3,164个缺陷案例和10,268个清洁案例的函数级修改语料库。研究者可基于此数据集开展预训练语言模型对代码修改的语义理解能力评估，探索不同输入编码策略在缺陷预测任务中的表现差异。

解决学术问题

该数据集有效解决了传统即时缺陷预测研究中标签噪声高、精度不足的核心问题。通过回退提交机制替代易错的SZZ关联方法，显著提升了缺陷标签的可靠性。其实验设计揭示了预训练语言模型在代码修改理解上的局限性，表明当前模型更多依赖表层特征而非真正的语义推理，为改进代码变更分析模型提供了关键见解。

衍生相关工作

该数据集推动了多项代码智能研究的发展。基于ReDef的评估框架被扩展至更多预训练模型如CodeLlama和StarCoder的测试中。其构建方法启发了跨语言缺陷数据集的创建，而反事实扰动测试范式已成为评估模型语义理解能力的重要基准，促进了编辑感知预训练目标等新研究方向的出现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集