bug-localization/BeetleBox
收藏Hugging Face2025-06-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/bug-localization/BeetleBox
下载链接
链接失效反馈官方服务:
资源简介:
BeetleBox是一个针对缺陷定位研究的综合多语言、多项目数据集,包含了来自29个项目的26,321个缺陷,覆盖了Java、Python、C++、JavaScript和Go五种广泛使用的编程语言。该数据集经过精心策划,以确保准确性,手动分析显示错误的地真率仅为0.06%。数据集为每个缺陷报告提供了详尽的信息,包括缺陷状态、仓库名、仓库URL、问题ID、修复过程中更新的文件列表、报告标题、正文、拉取请求URL、问题URL、修复前后的SHA值以及报告和修复提交的日期和时间。
The BeetleBox dataset is a comprehensive multi-language, multi-project dataset designed for bug localization research. It includes 26,321 bugs from 29 projects, covering five major programming languages: Java, Python, C++, JavaScript, and Go. The dataset was meticulously curated to ensure accuracy, with a manual analysis revealing an incorrect ground truth rate of only 0.06%. The dataset provides detailed information for each bug report, such as the bugs status, repository name, repository URL, issue ID, a list of files updated during the fix, the bug reports title, body, pull request URL, issue URL, SHA values before and after the fix, and the dates and times of both the bug report and the fixing commit.
提供机构:
bug-localization
原始信息汇总
数据集概述
数据集名称: BeetleBox
数据集描述: BeetleBox是一个专为bug定位研究设计的综合多语言、多项目数据集。它包含26,321个来自29个项目的bug,涵盖Java、Python、C++、JavaScript和Go五种主要编程语言。该数据集经过精心策划,确保准确性,手动分析显示不正确的基本事实率仅为0.06%。
关键特征:
- 多语言: 覆盖五种主要编程语言。
- 多项目: 包含来自29个不同项目的数据。
- 高准确性: 保持低不正确的基本事实率0.06%。
- 详细元数据: 为每个bug报告提供广泛细节。
数据集统计:
| 语言 | 训练集 | 测试集 |
|---|---|---|
| C++ | 3,868 | 4,783 |
| Go | 758 | 400 |
| Java | 3,369 | 2,270 |
| JavaScript | 1,974 | 3,085 |
| Python | 3,215 | 2,599 |
数据集大小:
- 下载大小: 27557712字节
- 数据集大小: 78218675字节
数据集结构:
- 特征: 包括status, repo_name, repo_url, issue_id, updated_files, title, body, issue_url, pull_url, before_fix_sha, after_fix_sha, report_datetime, language, commit_datetime等。
- 分割: 包括训练集和测试集,分别包含13184和13137个样本。
语言:
- 数据集语言: 英语
标签:
- 标签: code, bugs, patch
大小类别:
- 大小范围: 10K<n<100K



