five

vscode_bugs_cleaned

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/aaa961/vscode_bugs_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含问题跟踪信息的数据集,其中包括问题ID、摘要、创建时间、解决时间、问题描述和解决方案等字段。数据集仅包含训练集分割,共有32602个示例。

This is a dataset containing issue tracking information, which includes fields such as issue ID, summary, creation time, resolution time, issue description, and solution. The dataset only includes the training split, with a total of 32,602 instances.
创建时间:
2025-08-26
原始信息汇总

数据集概述

基本信息

  • 数据集名称: vscode_bugs_cleaned
  • 存储位置: https://huggingface.co/datasets/aaa961/vscode_bugs_cleaned
  • 下载大小: 17552987字节
  • 数据集大小: 41817709字节

数据特征

  • 特征列:
    • Issue id(字符串类型)
    • Summary(字符串类型)
    • Created(字符串类型)
    • Resolved(字符串类型)
    • Description(字符串类型)
    • Resolution(字符串类型)

数据划分

  • 划分名称: train
  • 样本数量: 32602
  • 字节大小: 41817709

配置信息

  • 配置名称: default
  • 数据文件路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,vscode_bugs_cleaned数据集通过系统化收集Visual Studio Code开源项目的缺陷报告构建而成。原始数据源自项目的Issue跟踪系统,经过清洗和标准化处理,剔除了冗余信息并统一了字段格式,确保了数据的规范性和一致性。该过程注重保留缺陷的核心描述与解决状态,为后续分析提供了高质量的基础。
特点
该数据集涵盖了丰富的缺陷管理属性,包括问题标识、摘要、创建与解决时间、详细描述及解决方案等关键字段。其规模庞大,包含超过3万条实例,每条记录均经过清理,具有较高的完整性和准确性。这些特点使其成为研究软件缺陷模式、跟踪生命周期以及开发自动修复工具的宝贵资源。
使用方法
研究人员可利用该数据集进行多种软件工程实验,如缺陷分类、严重性预测或解决方案生成。使用时需加载训练分割,依据时间字段划分训练与测试集以验证时序模型效果。结合自然语言处理技术,可从描述文本中提取特征,进而构建智能诊断系统,提升软件开发效率。
背景与挑战
背景概述
软件工程领域长期关注开源项目的缺陷管理机制,vscode_bugs_cleaned数据集源于微软Visual Studio Code这一广泛使用的开源代码编辑器的实际开发过程。该数据集由开发团队在项目维护过程中系统收集并整理,聚焦于自动化软件缺陷分类与优先级预测的核心研究问题。通过结构化记录Issue追踪系统的完整生命周期数据,为软件质量保障与智能运维研究提供了实证基础,显著推动了基于机器学习的软件工程辅助决策发展。
当前挑战
该数据集首要解决软件缺陷自动分类与根因分析的领域挑战,包括多模态文本特征提取、缺陷优先级动态评估以及跨版本缺陷模式演化追踪等关键问题。构建过程中面临原始数据非结构化清洗、敏感信息脱敏处理、时间序列标注一致性维护等工程挑战,同时需确保缺陷描述与解决方案的语义对应关系完整性,这对自然语言处理技术与软件工程知识的融合提出较高要求。
常用场景
经典使用场景
在软件工程领域,vscode_bugs_cleaned数据集为缺陷预测和代码质量分析提供了重要支持。研究者通常利用该数据集训练机器学习模型,以识别和分类软件开发过程中的常见缺陷模式,进而提升自动化错误检测的准确性与效率。
解决学术问题
该数据集有效解决了软件维护中缺陷根因分析与修复策略研究的核心问题。通过提供大量真实世界的缺陷报告及其解决记录,它帮助学术界深入理解缺陷产生的规律,推动了智能诊断与自动化修复技术的发展,显著提升了软件可靠性研究的实证基础。
衍生相关工作
基于该数据集,多项经典研究工作得以展开,包括基于深度学习的缺陷报告自动分类模型、缺陷修复时间预测系统以及代码变更影响分析工具。这些成果不仅丰富了软件工程的研究范畴,也为工业界提供了可落地的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作