five

Eclipse and Mozilla Defect Tracking Dataset

收藏
github2020-01-03 更新2024-05-31 收录
下载链接:
https://github.com/jimzhu/msr2013-bug_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
包含从Eclipse和Mozilla项目中提取的超过200,000个报告的缺陷跟踪数据集。该数据集不仅提供了一个缺陷报告的快照,还包括了缺陷报告生命周期中所有增量的修改。

This dataset comprises over 200,000 defect tracking reports extracted from the Eclipse and Mozilla projects. It not only provides a snapshot of defect reports but also includes all incremental modifications throughout the lifecycle of these defect reports.
创建时间:
2016-05-25
原始信息汇总

数据集概述

数据集名称

Mozilla and Eclipse Defect Tracking Dataset

数据集描述

该数据集包含从EclipseMozilla项目中提取的超过200,000个报告的缺陷。数据集不仅提供缺陷报告的单一快照,还包括缺陷报告生命周期中所有增量的修改。

数据集结构

数据集以一组XML文件的形式组织,每个项目(Eclipse和Mozilla)都有独立的目录,包含之前选定的产品。每个产品目录中,针对每个缺陷属性都有一个XML文件,其中包含相应的信息。特别地,reports.xml包含报告后未更改的属性,而其他XML文件则提供特定属性发生的所有更新。

数据集内容

  • Eclipse项目包含以下产品及其报告数量:

    • Platform: 22个组件,24,775个报告
    • JDT: 6个组件,10,814个报告
    • CDT: 20个组件,5,640个报告
    • GEF: 5个组件,5,655个报告
  • Mozilla项目包含以下产品及其报告数量:

    • Core: 137个组件,74,292个报告
    • Firefox: 47个组件,69,879个报告
    • Thunderbird: 23个组件,19,237个报告
    • Bugzilla: 21个组件,4,616个报告

数据集特点

每个报告在数据集中都附带一个修改列表,提供了完整的更新历史。这些修改可能包括报告的不完整性、不准确信息或当前开发状态的更新(如从已分配再到已关闭的状态变化)。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于Eclipse和Mozilla两个项目中的软件缺陷报告,总计超过20万份报告。构建过程中,不仅包含了每个缺陷报告的静态快照,还记录了报告生命周期内所有的增量修改。具体而言,数据集分为Eclipse和Mozilla两个子集,每个子集再按照不同的产品进行划分,每个产品目录下包含了多个XML文件,分别记录了报告的不同属性及其更新历史。
特点
本数据集的特点在于其详尽地记录了缺陷报告的动态变化过程,包括报告的创建、更新以及状态的变更。此外,数据集涵盖了多个产品的缺陷报告,使得研究人员能够对不同产品的缺陷管理流程进行比较分析。其结构化存储于XML文件中,便于数据的检索与处理。
使用方法
用户在使用该数据集时,可以直接访问对应的GitHub页面以获取数据集的详细描述和示例。数据集以XML文件形式组织,用户需要解析XML文件以提取所需信息。针对特定的研究目的,用户可以筛选特定的产品或属性进行深入分析。此外,数据集的维护者鼓励用户提出改进建议,并将研究成果和脚本贡献回GitHub仓库,以促进数据集的持续发展。
背景与挑战
背景概述
在软件工程领域,缺陷跟踪数据集对于理解软件维护过程和提升软件质量至关重要。Eclipse和Mozilla作为业界广泛使用的软件平台,其缺陷跟踪数据集便成为了研究的热点。该数据集名为Eclipse and Mozilla Defect Tracking Dataset,创建于2013年,由Ahmed Lamkanfi、Javier Perez和Serge Demeyer等研究人员构建。该数据集涵盖了从Eclipse和Mozilla项目中提取的超过20万份报告的缺陷,其中不仅包含了缺陷报告的静态快照,还包含了报告生命周期中的所有增量修改。这一数据集为研究人员提供了一种真实世界场景,以探索缺陷报告的动态变化,对于软件缺陷预测、分类和过程改进等领域产生了深远的影响。
当前挑战
尽管Eclipse and Mozilla Defect Tracking Dataset为缺陷跟踪研究提供了宝贵的资源,但在使用该数据集时仍面临一些挑战。首先,如何有效处理和解析数据集中复杂的缺陷报告更新历史是一个问题。其次,数据集的多样性和规模给数据清洗和标准化带来了挑战。此外,将这一数据集与其他类型的软件仓库(如源代码版本控制系统)进行集成,以便进行更深入的多维度分析,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
在软件工程领域,针对缺陷跟踪的研究与实践至关重要。Eclipse and Mozilla Defect Tracking Dataset作为一种集成化的缺陷报告数据集,其经典使用场景主要集中于对软件缺陷报告的自动化分类、优先级分配以及缺陷修复状态的监控。该数据集提供了丰富的缺陷生命周期信息,使得研究者能够深入分析缺陷报告的动态变化特征,进而优化缺陷管理流程。
实际应用
在实际应用中,该数据集被广泛应用于软件开发企业的质量保证流程中,支持开发团队对软件缺陷进行有效跟踪与管理。此外,它还可用于训练机器学习模型,以实现对软件缺陷的自动识别和分类,提高软件开发与维护的自动化水平。
衍生相关工作
基于Eclipse and Mozilla Defect Tracking Dataset,学术界衍生出了一系列相关工作,包括但不限于缺陷报告的情感分析、缺陷修复时间预测、缺陷报告间的关联性分析等。这些工作不仅丰富了软件工程领域的研究内容,也为实际软件开发过程中的缺陷管理提供了理论支持与实践指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作