tiginamaria/bug-localization

Name: tiginamaria/bug-localization
Creator: tiginamaria
Published: 2024-05-19 10:01:54
License: 暂无描述

Hugging Face2024-05-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/tiginamaria/bug-localization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于Bug Localization基准测试，包含多个配置（如java、kt、mixed、py），每个配置都提供了与GitHub仓库、问题、拉取请求、文件变更等相关的详细信息。数据集的结构包括每个提交的完整数据，涵盖了仓库所有者、仓库名称、问题链接、拉取请求链接、评论链接、问题标题、问题正文、基础SHA、头部SHA、差异URL、差异内容、变更文件列表、变更文件扩展名统计、变更文件数量、特定语言变更文件数量、仓库符号数量、仓库令牌数量、仓库行数、无测试文件数量、变更符号数量、变更令牌数量、变更行数、无测试变更文件数量、问题符号数量、问题字数、问题令牌数量、问题行数、问题链接数量、问题代码块数量、拉取请求创建时间、仓库星数、语言、许可证等字段。

提供机构：

tiginamaria

原始信息汇总

数据集概述

本数据集包含多个配置，每个配置对应不同的编程语言，包括Java、Kotlin、Python和混合语言。每个配置下又分为开发（dev）、测试（test）和训练（train）三个部分。

数据集特征

每个配置的数据集特征包括：

基本信息：包括id、text_id、repo_owner、repo_name等，用于标识和链接相关的仓库和问题。
问题和拉取请求信息：如issue_url、pull_url、comment_url等，提供了问题的GitHub链接和相关的拉取请求信息。
代码变更信息：包括base_sha、head_sha、diff_url、diff等，用于追踪代码的变更历史。
文件变更统计：如changed_files_count、java_changed_files_count等，统计了不同类型文件的变更数量。
时间和星标信息：如pull_create_at、stars，提供了拉取请求的创建时间和仓库的星标数。

数据集大小

各配置的数据集大小如下：

配置名称	下载大小	数据集大小
java	35897529	44380414.0
kt	8353439	9734698.0
mixed	86393992	97373186.0
py	69562280	53333768.0

数据集分割

每个配置的数据集都分为三个部分：

dev：用于开发和调试，包含的示例数和字节数。
test：用于测试，包含的示例数和字节数。
train：用于训练，包含的示例数和字节数。

数据集使用

数据集通过load_dataset函数加载，用户可以选择不同的配置和分割来加载数据。此外，数据集还提供了仓库的.tar.gz文件路径，用户可以通过hf_hub_download函数下载并解压这些文件。

5,000+

优质数据集

54 个

任务类型

进入经典数据集