five

IssueCourier Benchmark Dataset

收藏
arXiv2025-05-16 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.11205v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是针对开源软件项目中问题分配任务而创建的,旨在解决现有数据集中存在的不正确和缺失标签问题。数据集包含了经过重新标记的问题,以反映实际解决问题的开发者。数据集的创建过程中,研究者通过追踪问题事件和识别与问题相关的提交来重新标记问题,并进行了手动评估以验证数据的准确性和可靠性。该数据集的应用领域是开源软件维护,旨在提高问题分配的效率和一致性,解决手动分配问题复杂且成本高昂的问题。

This dataset is developed for the issue assignment task in open-source software (OSS) projects, targeting the problems of incorrect and missing labels prevalent in existing datasets. It consists of manually re-labeled issues that reflect the actual developers who resolved the corresponding problems. During its development, researchers re-labeled the issues by tracking issue events and identifying commits associated with the problems, and carried out manual evaluations to verify the accuracy and reliability of the dataset. This dataset is applied in the domain of open-source software maintenance, aiming to improve the efficiency and consistency of issue assignment and address the complexity and high cost associated with manual issue assignment.
提供机构:
武汉大学计算机科学与技术学院, 湖北大学网络科学与技术学院
创建时间:
2025-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
IssueCourier Benchmark Dataset的构建过程基于开源软件(OSS)维护中的问题分配任务,旨在解决现有数据集中标签错误和缺失的问题。研究团队从GitHub等开源平台选取了五个项目,通过追踪问题事件和提交记录重新标注了问题的实际修复者,确保标签的准确性。构建过程中,团队提取了问题、开发者和源代码文件之间的五种关键关系,包括报告、评论、创建、删除和相似关系,以此构建了一个异构时序图(HTG)。数据集的构建还包括时间切片技术,将整个问题跟踪时间线划分为多个时间段,以捕捉开发者活动的阶段性特征。
特点
IssueCourier Benchmark Dataset的主要特点包括其多关系异构时序图结构,能够全面捕捉问题、开发者和源代码文件之间的复杂交互。数据集通过重新标注问题修复者,显著减少了标签错误和缺失的问题,提高了模型的训练和评估可靠性。此外,数据集的时间切片技术能够动态反映开发者活动的变化,避免了传统方法中因忽略开发者活动动态性而导致的误分配问题。数据集的另一个显著特点是其规模,涵盖了多个开源项目的数万条问题记录,为研究提供了丰富的实验数据。
使用方法
IssueCourier Benchmark Dataset的使用方法主要包括数据准备、特征提取和推荐三个步骤。在数据准备阶段,用户需根据问题事件和提交记录重新标注问题的实际修复者。特征提取阶段利用异构时序图学习每个时间片内的信息,并捕捉相邻时间片间的演化模式,从而编码局部结构上下文和时间动态性。推荐阶段通过计算问题与开发者表示之间的余弦相似度,生成问题的推荐开发者列表。数据集适用于评估自动问题分配模型的性能,特别是在处理标签错误、长尾分布和动态开发者活动等挑战时的表现。
背景与挑战
背景概述
IssueCourier Benchmark Dataset是由武汉大学等机构的研究团队于2025年提出的开源软件问题分配基准数据集。该数据集聚焦于开源软件维护中的核心问题——如何高效准确地将报告的问题分配给合适的开发者。传统人工分配方式在大规模项目中效率低下且成本高昂,而现有自动化方法主要基于问题报告文本信息、开发者专业知识或历史问题修复记录建模,存在标签错误/缺失、开发者贡献长尾分布以及开发者活跃度动态变化等局限性。该数据集通过重构异构时序图神经网络框架,建立了问题、开发者和源代码文件间的五类关键关系,并采用时间切片技术捕捉阶段特异性模式,显著提升了问题分配的准确性。
当前挑战
该数据集面临三重主要挑战:首先,在领域问题层面,开源软件数据集普遍存在标签错误和缺失问题,约18%的问题实际修复者与官方分配者不一致,严重影响模型可靠性;其次,构建过程中需解决开发者贡献的长尾分布问题,少数核心开发者解决了大部分问题,导致模型偏向推荐经验丰富的开发者;最后,项目演进中开发者活跃度的动态变化给建模带来困难,传统方法无法有效识别已不活跃的开发者。此外,数据构建时还需处理多平台数据整合、跨时期开发者行为建模等工程挑战。
常用场景
经典使用场景
IssueCourier Benchmark Dataset在开源软件维护领域中被广泛用于自动化问题分配任务。该数据集通过构建异构时序图神经网络,捕捉问题、开发者和源代码文件之间的复杂关系,从而优化开发者推荐过程。其经典使用场景包括在大型开源项目中自动分配新报告的问题,以减少人工干预的成本和提高分配效率。
实际应用
在实际应用中,IssueCourier Benchmark Dataset被用于开源项目管理平台(如GitHub)中的自动化问题分配系统。通过整合多关系信息和时序分析,该数据集能够推荐最合适的开发者来处理新报告的问题,从而提升问题解决的效率和项目的整体维护质量。
衍生相关工作
IssueCourier Benchmark Dataset衍生了一系列经典研究工作,包括基于内容的DeepTriage和Multi-triage、基于协同过滤的PCG和NCGBT,以及基于开发者专业知识的ADPTriage。这些工作进一步推动了自动化问题分配领域的发展,并在不同场景下验证了该数据集的有效性和扩展性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作