five

bug-localization/BeetleBox

收藏
Hugging Face2025-06-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/bug-localization/BeetleBox
下载链接
链接失效反馈
官方服务:
资源简介:
BeetleBox是一个针对缺陷定位研究的综合多语言、多项目数据集,包含了来自29个项目的26,321个缺陷,覆盖了Java、Python、C++、JavaScript和Go五种广泛使用的编程语言。该数据集经过精心策划,以确保准确性,手动分析显示错误的地真率仅为0.06%。数据集为每个缺陷报告提供了详尽的信息,包括缺陷状态、仓库名、仓库URL、问题ID、修复过程中更新的文件列表、报告标题、正文、拉取请求URL、问题URL、修复前后的SHA值以及报告和修复提交的日期和时间。

The BeetleBox dataset is a comprehensive multi-language, multi-project dataset designed for bug localization research. It includes 26,321 bugs from 29 projects, covering five major programming languages: Java, Python, C++, JavaScript, and Go. The dataset was meticulously curated to ensure accuracy, with a manual analysis revealing an incorrect ground truth rate of only 0.06%. The dataset provides detailed information for each bug report, such as the bugs status, repository name, repository URL, issue ID, a list of files updated during the fix, the bug reports title, body, pull request URL, issue URL, SHA values before and after the fix, and the dates and times of both the bug report and the fixing commit.
提供机构:
bug-localization
原始信息汇总

数据集概述

数据集名称: BeetleBox

数据集描述: BeetleBox是一个专为bug定位研究设计的综合多语言、多项目数据集。它包含26,321个来自29个项目的bug,涵盖Java、Python、C++、JavaScript和Go五种主要编程语言。该数据集经过精心策划,确保准确性,手动分析显示不正确的基本事实率仅为0.06%。

关键特征:

  • 多语言: 覆盖五种主要编程语言。
  • 多项目: 包含来自29个不同项目的数据。
  • 高准确性: 保持低不正确的基本事实率0.06%。
  • 详细元数据: 为每个bug报告提供广泛细节。

数据集统计:

语言 训练集 测试集
C++ 3,868 4,783
Go 758 400
Java 3,369 2,270
JavaScript 1,974 3,085
Python 3,215 2,599

数据集大小:

  • 下载大小: 27557712字节
  • 数据集大小: 78218675字节

数据集结构:

  • 特征: 包括status, repo_name, repo_url, issue_id, updated_files, title, body, issue_url, pull_url, before_fix_sha, after_fix_sha, report_datetime, language, commit_datetime等。
  • 分割: 包括训练集和测试集,分别包含13184和13137个样本。

语言:

  • 数据集语言: 英语

标签:

  • 标签: code, bugs, patch

大小类别:

  • 大小范围: 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作