Eclipse and Mozilla Defect Tracking Dataset
收藏github2024-03-27 更新2024-05-31 收录
下载链接:
https://github.com/ansymo/msr2013-bug_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从Eclipse和Mozilla项目中提取的超过200,000个报告的bug。除了提供单个bug报告的快照外,还包括bug报告生命周期中所有增量修改的完整更新历史。数据集以XML文件形式组织,每个产品目录包含每个bug属性的XML文件,其中_reports.xml_包含报告后不变的属性,其他XML文件提供特定属性的所有更新。
This dataset comprises over 200,000 bug reports extracted from the Eclipse and Mozilla projects. In addition to providing snapshots of individual bug reports, it includes a complete update history of all incremental modifications throughout the bug report lifecycle. The dataset is organized in XML files, with each product directory containing XML files for each bug attribute, where _reports.xml_ contains attributes that remain unchanged after reporting, and other XML files provide all updates for specific attributes.
创建时间:
2013-03-24
原始信息汇总
数据集概述
数据集名称
Mozilla and Eclipse Defect Tracking Dataset
数据集描述
该数据集包含从Eclipse和Mozilla项目中提取的超过200,000个报告的缺陷。数据集不仅提供了一个缺陷报告的快照,还包括了缺陷报告在其生命周期中所有的增量修改。
数据集结构
数据集以一系列XML文件的形式组织,每个项目(Eclipse和Mozilla)都有独立的目录,每个目录下根据不同的产品进一步细分。每个产品目录中,每个缺陷属性都有一个对应的XML文件,记录了该属性的所有更新信息。特别地,reports.xml文件包含了报告后未更改的属性信息,而其他XML文件则记录了属性的所有更新。
数据集内容
-
Eclipse项目
- Platform: 22个组件,24,775个报告
- JDT: 6个组件,10,814个报告
- CDT: 20个组件,5,640个报告
- GEF: 5个组件,5,655个报告
-
Mozilla项目
- Core: 137个组件,74,292个报告
- Firefox: 47个组件,69,879个报告
- Thunderbird: 23个组件,19,237个报告
- Bugzilla: 21个组件,4,616个报告
更新历史
每个报告都附带一个修改列表,提供了完整的更新历史,包括每次更新的时间和新值。
搜集汇总
数据集介绍

构建方式
Eclipse and Mozilla Defect Tracking Dataset的构建基于Eclipse和Mozilla项目中超过20万个报告的缺陷。数据集不仅捕捉了缺陷报告的初始状态,还记录了其生命周期中的所有增量修改。这些缺陷报告来自Eclipse和Mozilla的多个流行产品,每个产品的缺陷报告数量从数千到数万不等。数据集以XML文件的形式组织,每个产品目录下包含多个XML文件,分别存储不同属性的信息,其中reports.xml文件包含报告后未更改的属性,而其他XML文件则记录了特定属性的所有更新。
使用方法
使用Eclipse and Mozilla Defect Tracking Dataset时,研究者可以通过解析XML文件来访问缺陷报告的详细信息。每个产品的目录下包含多个XML文件,研究者可以根据需要选择特定的属性文件进行分析。例如,通过分析reports.xml文件,可以获取缺陷报告的初始信息;而通过其他XML文件,可以追踪特定属性的历史变化。此外,数据集还提供了示例代码,帮助研究者快速上手,如分析缺陷报告中的不当语言使用。研究者还可以通过提交Issue或联系数据集维护者,提出改进建议或分享使用该数据集的研究成果。
背景与挑战
背景概述
Eclipse and Mozilla Defect Tracking Dataset 是由 Ahmed Lamkanfi、Javier Perez 和 Serge Demeyer 等研究人员于2013年创建的一个开源软件缺陷跟踪数据集。该数据集从Eclipse和Mozilla两个著名的开源项目中提取了超过20万条缺陷报告,涵盖了多个核心产品,如Eclipse的Platform、JDT、CDT、GEF,以及Mozilla的Core、Firefox、Thunderbird和Bugzilla。数据集不仅提供了缺陷报告的静态信息,还记录了每个报告在其生命周期内的所有增量修改。这一数据集为软件工程领域的研究人员提供了宝贵的资源,特别是在缺陷预测、缺陷修复和软件质量评估等方面具有重要的研究价值。
当前挑战
Eclipse and Mozilla Defect Tracking Dataset 在解决软件缺陷跟踪领域的挑战时,面临多方面的困难。首先,缺陷报告的质量和完整性存在显著差异,部分报告可能缺乏关键信息或包含不准确的内容,这增加了数据分析和模型训练的复杂性。其次,缺陷报告的生命周期中可能涉及多次修改,如何有效捕捉和处理这些动态变化是一个技术难点。此外,数据集的构建过程中,研究人员需要从庞大的开源项目中提取和整理数据,确保数据的准确性和一致性,这一过程耗时且容易出错。最后,如何将缺陷数据与其他开发资源(如版本控制系统、邮件通信等)进行有效整合,以提供更全面的研究视角,也是一个亟待解决的问题。
常用场景
经典使用场景
在软件工程领域,Eclipse and Mozilla Defect Tracking Dataset 被广泛用于研究软件缺陷的生命周期和缺陷报告的演变过程。该数据集通过记录每个缺陷报告的完整修改历史,为研究者提供了深入分析缺陷管理流程的机会。特别是在研究缺陷报告的完整性、准确性以及开发状态更新等方面,该数据集展现了其独特的价值。
解决学术问题
该数据集解决了软件工程中关于缺陷报告管理的多个关键问题。首先,它帮助研究者理解缺陷报告在生命周期中的变化,从而优化缺陷跟踪系统的设计。其次,通过分析缺陷报告的修改历史,研究者能够识别出常见的缺陷报告问题,如信息不完整或不准确,进而提出改进措施。此外,该数据集还为研究缺陷修复效率提供了数据支持,有助于提升软件开发的整体质量。
实际应用
在实际应用中,Eclipse and Mozilla Defect Tracking Dataset 被用于优化软件开发团队的缺陷管理流程。通过分析该数据集,开发团队能够识别出缺陷报告中的常见问题,并采取相应的改进措施。此外,该数据集还被用于开发自动化工具,帮助开发人员更高效地处理缺陷报告,从而缩短软件发布周期,提高软件质量。
数据集最近研究
最新研究方向
在软件工程领域,缺陷跟踪数据集的研究正逐渐成为热点,尤其是针对开源项目的缺陷管理。Eclipse and Mozilla Defect Tracking Dataset作为该领域的经典数据集,近年来被广泛应用于缺陷预测、缺陷修复时间估计以及开发者行为分析等方向。随着人工智能和机器学习技术的快速发展,研究者们开始利用该数据集中的历史缺陷报告和更新记录,构建更精确的缺陷预测模型。此外,结合自然语言处理技术,分析缺陷报告中的文本信息,也成为提升模型性能的关键。与此同时,该数据集还被用于研究开源社区中的协作模式,探索开发者之间的互动如何影响缺陷修复效率。这些研究不仅推动了软件质量保障技术的发展,也为开源社区的治理提供了新的视角。
以上内容由遇见数据集搜集并总结生成



