vscode_bugs_duplicates

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/aaa961/vscode_bugs_duplicates

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了软件问题报告的相关信息，具体字段包括问题编号、概要、创建时间、解决时间、问题描述、解决措施、重复问题列表、问题聚类编号、重复问题数量、是否含有重复问题以及完整的问题描述。数据集分为训练集，其中包含32596个示例，总文件大小为81783776字节。提供了默认配置，用于指定训练集的数据文件路径。

This dataset contains information related to software issue reports. The specific fields include issue ID, summary, creation time, resolution time, issue description, resolution measures, duplicate issue list, issue cluster ID, number of duplicate issues, whether there are duplicate issues, and the full issue description. The dataset is split into a training set, which contains 32596 samples with a total file size of 81783776 bytes. A default configuration is provided to specify the data file path of the training set.

创建时间：

2025-08-19

原始信息汇总

数据集概述

基本信息

数据集名称: vscode_bugs_duplicates
存储位置: https://huggingface.co/datasets/aaa961/vscode_bugs_duplicates
总样本数: 32602
数据大小: 81740370 字节
下载大小: 34111208 字节
数据拆分: train

数据结构

数据集包含以下字段：

Issue id (字符串类型)
Summary (字符串类型)
Created (字符串类型)
Resolved (字符串类型)
Description (字符串类型)
Resolution (字符串类型)
Duplicates (字符串列表)
Cluster (字符串类型)
Num_duplicates (字符串类型)
Has_duplicates (字符串类型)
Description_all (字符串类型)

数据内容

该数据集记录了 Visual Studio Code 项目的缺陷报告及其重复项信息，包含缺陷的创建时间、解决时间、描述、解决方案以及重复缺陷的关联数据。

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码缺陷管理是提升软件质量的关键环节。vscode_bugs_duplicates数据集基于Visual Studio Code项目的实际缺陷追踪记录构建，通过提取GitHub issue系统中的结构化数据，涵盖缺陷报告ID、摘要、创建与解决时间、详细描述及解决方案等字段，并专门标注了重复缺陷的关联信息，形成包含32602条样本的训练集，数据规模达81.74MB。

使用方法

研究人员可利用该数据集开展软件缺陷检测与管理的实证研究。通过解析Issue id和Duplicates字段可构建缺陷重复网络；结合Summary和Description文本字段可训练自然语言处理模型进行重复缺陷识别；Cluster字段支持聚类算法验证，而时间戳字段允许进行缺陷生命周期分析。数据集以标准表格格式发布，可直接加载至数据分析框架进行挖掘。

背景与挑战

背景概述

软件工程领域长期面临重复缺陷报告的识别难题，vscode_bugs_duplicates数据集由微软Visual Studio Code开发团队于开源社区协作环境中构建，聚焦于自动化检测重复软件缺陷报告的核心研究问题。该数据集通过系统化收集VS Code项目历史缺陷追踪数据，为重复缺陷检测算法提供了高质量标注样本，显著推动了软件维护自动化与智能缺陷管理技术的发展，对提升大型开源项目的协作效率具有重要实践价值。

当前挑战

在重复缺陷检测领域，该数据集需解决自然语言描述的语义多样性挑战，包括对相同缺陷的不同表述方式识别以及跨时间段的报告匹配难题。构建过程中面临数据清洗与标注的复杂性，需要从海量历史工单中精确提取重复关系链，并处理非结构化文本中的噪声数据与时间戳异构性问题，这对保持数据一致性与标注准确性提出了较高要求。

常用场景

经典使用场景

在软件工程领域，vscode_bugs_duplicates数据集为重复缺陷报告检测研究提供了重要支撑。该数据集通过记录Visual Studio Code项目中的缺陷报告及其重复关联信息，使研究者能够构建和评估自动化重复报告识别模型，从而优化缺陷管理流程。

解决学术问题

该数据集有效解决了软件维护中重复缺陷报告消歧的学术难题。通过提供真实项目的结构化缺陷数据，支持研究者开发自然语言处理和机器学习算法，以识别语义相似的缺陷报告，减少开发人员重复劳动，提升缺陷跟踪系统的效率。

实际应用

在实际软件开发中，该数据集可用于训练智能缺陷分类系统，帮助大型开源项目如VS Code自动过滤重复缺陷报告。此类系统能够显著降低开发团队的人工审核成本，加速缺陷修复周期，提升软件维护质量。

数据集最近研究