BugsRepo
收藏arXiv2025-04-26 更新2025-04-30 收录
下载链接:
https://zenodo.org/records/15004067
下载链接
链接失效反馈官方服务:
资源简介:
BugsRepo是一个全面的、经过策划的数据集,来源于Mozilla项目,旨在解决软件维护任务中的挑战,如bug报告摘要、严重性预测和开发者推荐。数据集包括三个关键组成部分:包含119,585个已修复或已解决的bug报告的元数据和评论数据集,包含19,351个Mozilla社区成员的贡献者信息数据集,以及包含10,351个高质量结构化bug报告的子集。这些数据集为软件维护任务的自动化分析提供了丰富的上下文信息,有助于提高软件维护过程的效率和质量。
提供机构:
卡尔加里大学
创建时间:
2025-04-26
搜集汇总
数据集介绍

构建方式
BugsRepo数据集通过系统化的方法从Mozilla的Bugzilla生态系统中提取和整合数据,构建过程分为四个主要阶段:收集bug报告元数据、获取贡献者信息数据集、整理实际bug报告及讨论评论、以及筛选结构良好的报告。利用Bugzilla REST API和Python脚本提取bug报告元数据,并通过网络爬虫技术收集贡献者信息。数据集进一步通过正则表达式和CTQRS框架进行双重过滤,确保仅包含高质量、结构化的报告,涵盖119,585条bug报告元数据、19,351名贡献者信息及10,351条结构化报告。
特点
BugsRepo数据集以其多维度的数据整合为特点,不仅包含详尽的bug报告元数据(如严重性、创建时间、状态和解决方案),还提供了贡献者的活动历史、角色及贡献指标(如提交的bug数量、评论次数和审查的补丁数)。此外,数据集通过CTQRS框架筛选出结构良好的报告,确保其具备清晰的复现步骤、实际行为和预期行为描述,为软件维护任务提供了高质量的语料库。
使用方法
BugsRepo数据集适用于多种软件维护任务的研究与应用,包括bug分类、严重性预测和开发者推荐等。研究者可以利用数据集中的结构化报告训练机器学习模型,提升模型在bug分派和总结中的准确性。贡献者信息可用于分析开发者协作网络或预测bug解决时间。数据集还支持对bug报告质量的自动评估,帮助优化报告撰写指南。使用时,可通过提供的API或直接下载数据集文件,结合相关代码库进行数据分析和模型训练。
背景与挑战
背景概述
BugsRepo数据集由加拿大卡尔加里大学的Jagrit Acharya和Gouri Ginde于2025年创建,旨在解决软件维护领域中因缺陷报告信息不完整或模糊而导致的效率低下问题。该数据集基于Mozilla项目的Bugzilla生态系统,包含119,585条精选缺陷报告元数据、19,351名贡献者信息以及10,351份经过严格筛选的结构化缺陷报告。通过整合静态元数据、贡献者统计和详细评论线程,BugsRepo为自动化缺陷报告分析提供了全面视角,显著提升了缺陷分派、严重性预测和报告摘要生成等软件维护任务的效率。其创新性在于采用CTQRS框架对报告质量进行自动化评估,确保数据集的高质量和可靠性,对推动软件工程领域的实证研究具有重要意义。
当前挑战
BugsRepo数据集面临的核心挑战主要体现在两个方面:在领域问题层面,传统缺陷报告常因缺乏关键信息(如重现步骤、实际/预期行为)导致不可复现或难以解决,这严重影响了缺陷分派和严重性预测等任务的准确性;在构建过程层面,研究团队需克服网页结构动态变化带来的数据采集困难,通过迭代优化Beautiful Soup爬虫解决HTML标签识别问题,并采用速率限制策略应对Bugzilla API的访问限制。此外,应用CTQRS框架进行质量过滤时,需处理自然语言处理的复杂性,包括依赖解析和语义角色标注等技术挑战,最终从原始报告中仅筛选出8.6%符合高标准的结构化报告。
常用场景
经典使用场景
BugsRepo数据集在软件维护领域具有广泛的应用价值,尤其在自动化缺陷报告分析方面表现突出。该数据集整合了来自Mozilla项目的119,585条经过筛选的缺陷报告,涵盖了缺陷严重性、创建时间、状态和解决方案等关键元数据。研究人员可以充分利用这些结构化数据,结合自然语言处理技术,开发高效的缺陷分类、优先级预测和自动摘要生成模型。数据集特有的CTQRS评分机制进一步确保了报告质量,为机器学习模型训练提供了高信噪比的语料库。
实际应用
在实际工程场景中,BugsRepo数据集展现出强大的实用价值。软件开发团队可利用其构建智能缺陷分派系统,通过分析贡献者的历史活动模式(如修复缺陷数、审查补丁数)实现专家匹配。质量保障部门可基于CTQRS评分体系优化缺陷报告模板,提升用户提交质量。项目管理者还能借助数据集中的生命周期数据,建立更精确的缺陷解决时间预测模型,从而优化资源配置。这些应用显著提升了Mozilla等大型开源项目的维护效率。
衍生相关工作
基于BugsRepo数据集已衍生出多项创新性研究。在缺陷分派领域,研究者开发了DBRNN-A等深度学习方法,利用贡献者活动历史提升分派准确率。自动摘要生成方面,SumLLaMA框架通过对比学习预训练实现了更精准的缺陷总结。缺陷优先级预测中,图卷积网络(GCN)模型有效融合了报告文本特征与贡献者社交网络信息。这些工作共同推动了软件维护工具向智能化、个性化方向发展,充分体现了数据集的多维价值。
以上内容由遇见数据集搜集并总结生成



