tiginamaria/bug-localization
收藏Hugging Face2024-05-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tiginamaria/bug-localization
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于Bug Localization基准测试,包含多个配置(如java、kt、mixed、py),每个配置都提供了与GitHub仓库、问题、拉取请求、文件变更等相关的详细信息。数据集的结构包括每个提交的完整数据,涵盖了仓库所有者、仓库名称、问题链接、拉取请求链接、评论链接、问题标题、问题正文、基础SHA、头部SHA、差异URL、差异内容、变更文件列表、变更文件扩展名统计、变更文件数量、特定语言变更文件数量、仓库符号数量、仓库令牌数量、仓库行数、无测试文件数量、变更符号数量、变更令牌数量、变更行数、无测试变更文件数量、问题符号数量、问题字数、问题令牌数量、问题行数、问题链接数量、问题代码块数量、拉取请求创建时间、仓库星数、语言、许可证等字段。
该数据集用于Bug Localization基准测试,包含多个配置(如java、kt、mixed、py),每个配置都提供了与GitHub仓库、问题、拉取请求、文件变更等相关的详细信息。数据集的结构包括每个提交的完整数据,涵盖了仓库所有者、仓库名称、问题链接、拉取请求链接、评论链接、问题标题、问题正文、基础SHA、头部SHA、差异URL、差异内容、变更文件列表、变更文件扩展名统计、变更文件数量、特定语言变更文件数量、仓库符号数量、仓库令牌数量、仓库行数、无测试文件数量、变更符号数量、变更令牌数量、变更行数、无测试变更文件数量、问题符号数量、问题字数、问题令牌数量、问题行数、问题链接数量、问题代码块数量、拉取请求创建时间、仓库星数、语言、许可证等字段。
提供机构:
tiginamaria
原始信息汇总
数据集概述
本数据集包含多个配置,每个配置对应不同的编程语言,包括Java、Kotlin、Python和混合语言。每个配置下又分为开发(dev)、测试(test)和训练(train)三个部分。
数据集特征
每个配置的数据集特征包括:
- 基本信息:包括id、text_id、repo_owner、repo_name等,用于标识和链接相关的仓库和问题。
- 问题和拉取请求信息:如issue_url、pull_url、comment_url等,提供了问题的GitHub链接和相关的拉取请求信息。
- 代码变更信息:包括base_sha、head_sha、diff_url、diff等,用于追踪代码的变更历史。
- 文件变更统计:如changed_files_count、java_changed_files_count等,统计了不同类型文件的变更数量。
- 时间和星标信息:如pull_create_at、stars,提供了拉取请求的创建时间和仓库的星标数。
数据集大小
各配置的数据集大小如下:
| 配置名称 | 下载大小 | 数据集大小 |
|---|---|---|
| java | 35897529 | 44380414.0 |
| kt | 8353439 | 9734698.0 |
| mixed | 86393992 | 97373186.0 |
| py | 69562280 | 53333768.0 |
数据集分割
每个配置的数据集都分为三个部分:
- dev:用于开发和调试,包含的示例数和字节数。
- test:用于测试,包含的示例数和字节数。
- train:用于训练,包含的示例数和字节数。
数据集使用
数据集通过load_dataset函数加载,用户可以选择不同的配置和分割来加载数据。此外,数据集还提供了仓库的.tar.gz文件路径,用户可以通过hf_hub_download函数下载并解压这些文件。



