Rediscovery Datasets

Name: Rediscovery Datasets
Creator: 瑞尔森大学
Published: 2017-03-19 03:01:38
License: 暂无描述

arXiv2017-03-19 更新2024-06-21 收录

下载链接：

http://doi.org/10.5281/zenodo.400614

下载链接

链接失效反馈

官方服务：

资源简介：

Rediscovery Datasets是由加拿大瑞尔森大学创建的数据集，专注于捕捉开源软件项目中重复缺陷报告的关联性。该数据集涵盖了1999至2017年间约914,000条缺陷报告，涉及Apache, Eclipse, 和KDE三大项目。通过定制的网络爬虫，数据集从Bugzilla缺陷跟踪系统中提取，并经过详细的数据转换和处理，形成了包含多种属性的数据集。此数据集旨在帮助研究人员和实践者更深入地理解缺陷重复发现的现象，从而优化缺陷报告的分析和处理，提高软件质量。

Rediscovery Datasets is a dataset developed by Ryerson University, Canada, which focuses on capturing the correlations between duplicate defect reports in open-source software projects. It includes approximately 914,000 defect reports spanning from 1999 to 2017, covering three flagship open-source projects: Apache, Eclipse, and KDE. Extracted from the Bugzilla defect tracking system via a custom-built web crawler, the dataset has undergone thorough data transformation and processing to yield a structured dataset with multiple attributes. This dataset is designed to help researchers and practitioners gain deeper insights into the phenomenon of defect rediscovery, thereby optimizing the analysis and handling of defect reports and enhancing software quality.

提供机构：

瑞尔森大学

创建时间：

2017-03-19

搜集汇总

数据集介绍

构建方式

在软件缺陷管理领域，重复缺陷报告的分析对提升软件质量至关重要。Rediscovery Datasets的构建采用了系统化的数据挖掘流程，从Apache、Eclipse和KDE三大开源项目的Bugzilla缺陷跟踪系统中提取了约91.4万份报告。构建过程分为四个阶段：首先通过查询Bugzilla引擎确定报告ID范围；随后利用定制网络爬虫提取包括产品、组件、报告者、优先级等核心属性；接着通过数据清洗移除不存在或无法访问的报告记录；最终构建派生属性，通过有向图模型建立重复报告间的关联网络，识别每个缺陷的根节点和最早发现节点，形成完整的重复发现图谱。

特点

该数据集在软件工程研究领域展现出独特的价值特征。其覆盖了长达18年的时间跨度，完整记录了三大开源生态系统的缺陷演化轨迹。数据集中约5%-7%的原始缺陷报告经历了重复发现，最大重复发现次数高达405次，呈现出显著的长尾分布特征。数据集不仅包含基础报告属性，更通过派生属性构建了缺陷重复发现的网络结构，使得研究者能够深入分析缺陷传播的时空模式。不同项目间非重复发现报告的比例存在差异，从Apache的86%到KDE的70%，反映了不同开发社区的缺陷管理特性。

使用方法

该数据集为软件质量研究提供了多维度的分析框架。研究者可利用CSV、SQL和Neo4j三种格式的数据，开展重复缺陷检测算法的验证与优化。通过分析缺陷重复发现的网络结构，可以构建预测模型来识别易被重复报告的缺陷类型。数据集支持跨项目比较研究，探索不同开发流程对缺陷管理效率的影响。在实践层面，开发者可基于重复发现的时间间隔分布优化测试资源分配，利用组件级别的非重复发现比例识别需要重点关注的软件模块。数据集的网络化表示形式特别适合用于研究缺陷报告的传播动力学和开发者协作模式。

背景与挑战

背景概述

在软件工程领域，缺陷报告的重复发现是影响软件维护效率与用户体验的关键问题。Rediscovery Datasets由Ryerson大学的Mefta Sadat、Ayse Basar Bener和Andriy V. Miranskyy等研究人员于2017年构建，旨在通过挖掘Bugzilla系统中的历史数据，揭示重复缺陷报告之间的复杂关联。该数据集涵盖了Apache、Eclipse和KDE三大开源软件项目群，时间跨度长达18年（1999年至2017年），包含约91.4万份缺陷报告，其核心研究聚焦于通过分析重复报告的图结构关系，优化缺陷分诊流程、加速根因定位，并为资源分配与客户画像构建提供数据支撑。这一资源为软件质量保障与维护研究提供了重要的实证基础，推动了缺陷管理领域的精细化分析。

当前挑战

Rediscovery Datasets致力于解决软件缺陷管理中重复报告识别的核心挑战，即如何在庞杂的缺陷流中高效关联同一故障的不同报告，以降低维护成本并提升修复速度。在构建过程中，研究团队面临多重技术难题：首先，数据提取需处理跨18年的海量异构报告，涉及自定义网络爬虫的开发与长时间运行；其次，部分报告因权限限制无法访问，虽比例较低但仍可能引入偏差；此外，缺陷报告间的图结构关系构建复杂，需通过派生属性（如根节点标识与最早发现标识）还原重复发现网络，并处理罕见的循环图案例。这些挑战凸显了大规模软件仓库挖掘中数据完整性、可访问性与关系建模的平衡需求。

常用场景

经典使用场景

在软件工程领域，缺陷报告去重是提升软件维护效率的关键环节。Rediscovery Datasets 为这一经典场景提供了结构化支持，研究者能够利用该数据集构建自动化去重模型，通过分析缺陷报告的文本内容、时间序列和关联网络，精准识别Bugzilla系统中的重复报告。数据集覆盖Apache、Eclipse和KDE三大开源项目群，时间跨度长达18年，使得模型训练能够捕捉长期演化模式，为缺陷报告智能分类与合并奠定数据基础。

解决学术问题

该数据集有效解决了缺陷管理中重复报告识别与关联分析的学术难题。通过提供包含根节点标识、发现时间序列和重复关系网络的结构化数据，研究者能够深入探究缺陷复现的动力学机制，量化分析重复报告对开发资源的影响。数据集支持构建预测模型，提前识别可能被重复报告的缺陷，从而优化缺陷修复优先级分配，推动软件质量保障从被动响应向主动预防的范式转变。

衍生相关工作

基于该数据集衍生的经典研究集中在缺陷预测与资源优化两大方向。在缺陷预测方面，学者构建了基于时间序列的重复报告概率模型，如Miranskyy等人提出的风险度量框架；在资源优化领域，Anvik等人的自动分配算法利用重复关系网络改进开发者指派策略。此外，数据集支撑了跨项目缺陷传播分析，催生了如Lamkanfi等人关于缺陷跟踪系统改进的系列研究，推动了软件仓库挖掘领域的范式创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集