five

tiginamaria/bug-localization

收藏
Hugging Face2024-05-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tiginamaria/bug-localization
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于Bug Localization基准测试,包含多个配置(如java、kt、mixed、py),每个配置都提供了与GitHub仓库、问题、拉取请求、文件变更等相关的详细信息。数据集的结构包括每个提交的完整数据,涵盖了仓库所有者、仓库名称、问题链接、拉取请求链接、评论链接、问题标题、问题正文、基础SHA、头部SHA、差异URL、差异内容、变更文件列表、变更文件扩展名统计、变更文件数量、特定语言变更文件数量、仓库符号数量、仓库令牌数量、仓库行数、无测试文件数量、变更符号数量、变更令牌数量、变更行数、无测试变更文件数量、问题符号数量、问题字数、问题令牌数量、问题行数、问题链接数量、问题代码块数量、拉取请求创建时间、仓库星数、语言、许可证等字段。

该数据集用于Bug Localization基准测试,包含多个配置(如java、kt、mixed、py),每个配置都提供了与GitHub仓库、问题、拉取请求、文件变更等相关的详细信息。数据集的结构包括每个提交的完整数据,涵盖了仓库所有者、仓库名称、问题链接、拉取请求链接、评论链接、问题标题、问题正文、基础SHA、头部SHA、差异URL、差异内容、变更文件列表、变更文件扩展名统计、变更文件数量、特定语言变更文件数量、仓库符号数量、仓库令牌数量、仓库行数、无测试文件数量、变更符号数量、变更令牌数量、变更行数、无测试变更文件数量、问题符号数量、问题字数、问题令牌数量、问题行数、问题链接数量、问题代码块数量、拉取请求创建时间、仓库星数、语言、许可证等字段。
提供机构:
tiginamaria
原始信息汇总

数据集概述

本数据集包含多个配置,每个配置对应不同的编程语言,包括Java、Kotlin、Python和混合语言。每个配置下又分为开发(dev)、测试(test)和训练(train)三个部分。

数据集特征

每个配置的数据集特征包括:

  • 基本信息:包括id、text_id、repo_owner、repo_name等,用于标识和链接相关的仓库和问题。
  • 问题和拉取请求信息:如issue_url、pull_url、comment_url等,提供了问题的GitHub链接和相关的拉取请求信息。
  • 代码变更信息:包括base_sha、head_sha、diff_url、diff等,用于追踪代码的变更历史。
  • 文件变更统计:如changed_files_count、java_changed_files_count等,统计了不同类型文件的变更数量。
  • 时间和星标信息:如pull_create_at、stars,提供了拉取请求的创建时间和仓库的星标数。

数据集大小

各配置的数据集大小如下:

配置名称 下载大小 数据集大小
java 35897529 44380414.0
kt 8353439 9734698.0
mixed 86393992 97373186.0
py 69562280 53333768.0

数据集分割

每个配置的数据集都分为三个部分:

  • dev:用于开发和调试,包含的示例数和字节数。
  • test:用于测试,包含的示例数和字节数。
  • train:用于训练,包含的示例数和字节数。

数据集使用

数据集通过load_dataset函数加载,用户可以选择不同的配置和分割来加载数据。此外,数据集还提供了仓库的.tar.gz文件路径,用户可以通过hf_hub_download函数下载并解压这些文件。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作