vscode_bugs_combined_cleaned

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/aaa961/vscode_bugs_combined_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个主要特征：问题编号（字符串类型），重复项列表（字符串列表类型），簇（字符串类型），以及重复项数量（字符串类型）。数据集分为训练集，共有667个示例，数据大小为33392字节。数据集的下载大小为14948字节。目前只有一个默认配置，数据文件路径指向训练集。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称: vscode_bugs_combined_cleaned
来源地址: https://huggingface.co/datasets/aaa961/vscode_bugs_combined_cleaned
下载大小: 14,948 字节
数据集大小: 33,392 字节
示例数量: 667 条

数据结构

特征

Issue id: 字符串类型，表示问题标识
Duplicates: 字符串列表，记录重复问题
Cluster: 字符串类型，表示问题所属集群
Num_duplicates: 字符串类型，记录重复数量

数据划分

划分名称: train
文件路径: data/train-*

配置信息

配置名称: default
数据文件: 对应train划分，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在软件工程领域，缺陷报告的整理对提升开发效率至关重要。vscode_bugs_combined_cleaned数据集通过系统化收集Visual Studio Code项目的GitHub问题追踪数据，经过数据清洗与去重处理，构建了一个包含667条样本的训练集，每条记录涵盖问题ID、重复项列表、聚类标识及重复数量等结构化特征，确保了数据的完整性与一致性。

特点

该数据集突显其高度结构化的特性，以字符串类型存储问题ID和聚类信息，并创新性地采用列表格式记录重复问题关联，辅以数值型重复计数统计。其紧凑的尺寸设计，仅33KB存储占用，便于高效传输与处理，为软件缺陷分析研究提供了轻量而精确的数据基础。

使用方法

研究者可借助该数据集开展缺陷报告重复检测、问题聚类分析等实证研究。直接加载训练分割数据后，可利用问题ID与重复项列表构建关联网络，通过聚类字段验证分组效果，或结合重复数量字段评估去重算法性能，为开发自动化缺陷管理工具提供基准支持。

背景与挑战

背景概述

软件工程领域长期面临着代码缺陷管理的核心挑战，vscode_bugs_combined_cleaned数据集应运而生，由专业研究团队基于Visual Studio Code项目的真实缺陷报告构建而成。该数据集聚焦于软件缺陷检测与重复问题识别，通过结构化记录每个缺陷报告的ID、重复关系簇及重复数量等关键特征，为软件开发质量保障提供了重要数据支撑。其创建标志着软件维护研究向数据驱动范式转变，显著推动了自动化缺陷管理技术的发展，并对代码仓库挖掘与智能调试领域产生深远影响。

当前挑战

该数据集致力于解决软件缺陷检测中重复问题报告的识别挑战，包括高维文本特征提取、跨版本缺陷匹配以及噪声数据过滤等核心难题。构建过程中面临多重技术障碍：原始缺陷报告需要经过复杂的自然语言处理与特征工程转换，重复关系链的标注需要结合代码变更记录与开发者反馈进行交叉验证，同时还需保持不同版本间数据格式的一致性。数据清洗阶段需处理非结构化文本、去除无效字段并保证聚类结果的准确性，这些都对数据集的构建质量提出了极高要求。

常用场景

经典使用场景

在软件工程领域，vscode_bugs_combined_cleaned数据集为重复缺陷检测研究提供了重要支撑。该数据集通过整理Visual Studio Code项目的缺陷报告及其重复关联信息，使研究者能够构建高效的重复缺陷识别模型，优化缺陷管理流程，提升软件维护效率。

实际应用

在实际软件开发中，该数据集可直接应用于企业级缺陷管理系统的优化。通过训练智能缺陷分类器，能够自动识别和合并重复缺陷报告，大幅降低开发团队的维护成本，提升Visual Studio Code等大型开源项目的协作效率。

衍生相关工作

基于该数据集，研究者开发了多种经典的重复缺陷检测模型，包括基于自然语言处理的缺陷报告相似度计算方法和聚类算法。这些工作推动了智能软件维护工具的发展，为后续的自动化缺陷管理研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集