gitbug-java
收藏Hugging Face2024-11-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/gitbugactions/gitbug-java
下载链接
链接失效反馈官方服务:
资源简介:
该数据集记录了多个软件开发项目的信息,包括项目ID、仓库名称、编程语言、克隆URL、提交信息、提交时间戳等。此外,数据集还详细记录了与代码补丁相关的信息,如bug补丁、测试补丁、非代码补丁等。数据集还包含了与GitHub Actions运行相关的信息,如构建工具、默认操作、测试结果等。数据集分为训练集,包含199个样本,总大小为50137466字节。
This dataset records information of multiple software development projects, including project ID, repository name, programming language, clone URL, commit information, commit timestamp, and more. Additionally, it details information related to code patches such as bug patches, test patches, non-code patches, etc. The dataset also includes information associated with GitHub Actions runs, including build tools, default actions, test results, and more. The dataset is split into a training set which contains 199 samples with a total size of 50137466 bytes.
创建时间:
2024-11-05
原始信息汇总
GitBug Java 数据集概述
数据集信息
特征
- bid: 字符串类型
- pid: 字符串类型
- repository: 字符串类型
- language: 字符串类型
- clone_url: 字符串类型
- collection_timestamp: 字符串类型
- commit_hash: 字符串类型
- commit_message: 字符串类型
- commit_timestamp: 字符串类型
- previous_commit_hash: 字符串类型
- previous_commit_message: 字符串类型
- previous_commit_timestamp: 字符串类型
- time_to_patch: 字符串类型
- bug_patch: 字符串类型
- bug_patch_file_extensions: 序列类型,元素为字符串
- test_patch: 字符串类型
- test_patch_file_extensions: 序列类型,元素为字符串
- non_code_patch: 字符串类型
- non_code_patch_file_extensions: 序列类型,元素为字符串
- change_type: 字符串类型
- actions_runs: 列表类型,包含以下子特征:
- build_tool: 字符串类型
- default_actions: 布尔类型
- elapsed_time: 浮点数类型
- failed: 布尔类型
- tests: 列表类型,包含以下子特征:
- classname: 字符串类型
- name: 字符串类型
- results: 列表类型,包含以下子特征:
- message: 字符串类型
- result: 字符串类型
- type: 字符串类型
- stderr: 字符串类型
- stdout: 字符串类型
- time: 浮点数类型
- workflow: 结构类型,包含以下子特征:
- path: 字符串类型
- type: 字符串类型
- workflow_name: 字符串类型
- strategy: 字符串类型
- issues: 列表类型,包含以下子特征:
- body: 字符串类型
- comments: 序列类型,元素为字符串
- id: 整数类型
- is_pull_request: 布尔类型
- labels: 列表类型,包含以下子特征:
- description: 字符串类型
- name: 字符串类型
- review_comments: 序列类型,元素为字符串
- title: 字符串类型
数据分割
- train: 包含199个样本,总大小为50137466字节
数据集大小
- 下载大小: 3434244字节
- 数据集大小: 50137466字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
搜集汇总
数据集介绍

构建方式
gitbug-java数据集的构建基于对开源Java项目中的Bug修复记录的系统性收集与分析。通过爬取GitHub上的Java项目,数据集涵盖了从提交哈希、提交信息到补丁文件等多个维度的详细信息。每个Bug修复记录均包含前后两次提交的哈希值、时间戳以及补丁内容,确保了数据的完整性与可追溯性。此外,数据集还记录了与Bug修复相关的测试补丁和非代码补丁,进一步丰富了数据的多样性。
特点
gitbug-java数据集的特点在于其多维度的数据结构与丰富的上下文信息。数据集不仅包含了Bug修复的核心信息,如补丁内容和提交记录,还扩展至测试补丁、非代码补丁以及相关的GitHub Actions运行记录。这种多层次的数据结构为研究者提供了全面的视角,能够深入分析Bug修复的过程及其对项目的影响。此外,数据集还包含了与Bug修复相关的Issue信息,如标题、评论和标签,进一步增强了数据的实用性与研究价值。
使用方法
gitbug-java数据集的使用方法灵活多样,适用于多种研究场景。研究者可以通过分析Bug修复记录,探索Java项目中的常见Bug类型及其修复策略。数据集中的测试补丁和非代码补丁信息可用于研究Bug修复对项目测试覆盖率和非代码文件的影响。此外,结合GitHub Actions的运行记录,研究者可以进一步分析自动化测试在Bug修复过程中的作用。数据集以JSON格式提供,便于直接加载与分析,支持多种编程语言和工具的使用。
背景与挑战
背景概述
gitbug-java数据集聚焦于Java编程语言中的软件缺陷修复问题,旨在为研究人员和开发者提供一个全面的资源,以深入理解缺陷修复的过程和机制。该数据集由多个开源Java项目的缺陷修复记录构成,涵盖了从缺陷报告到修复补丁的全过程信息。通过整合代码变更、测试用例、构建工具运行结果等多维度数据,gitbug-java为软件工程领域的研究提供了丰富的实验材料。其创建时间可追溯至近年,主要研究人员或机构尚未明确公开,但其在缺陷修复、代码质量分析等领域的应用潜力已引起广泛关注。
当前挑战
gitbug-java数据集在解决软件缺陷修复问题的过程中面临多重挑战。首先,缺陷修复的多样性和复杂性使得数据集的构建需要涵盖广泛的修复场景,包括不同规模的项目、不同类型的缺陷以及多种修复策略。其次,数据采集和标注的准确性至关重要,需要确保每个缺陷修复记录的真实性和完整性,这对数据清洗和验证提出了较高要求。此外,数据集的规模和质量直接影响其研究价值,如何在保证数据多样性的同时避免冗余和噪声,是构建过程中的一大难题。最后,数据集的开放性和可访问性也需进一步优化,以促进其在学术和工业界的广泛应用。
常用场景
经典使用场景
在软件工程领域,gitbug-java数据集被广泛用于研究Java项目的缺陷修复过程。通过分析数据集中的bug修复补丁、测试补丁以及非代码补丁,研究人员能够深入理解开发者在修复缺陷时的行为模式和策略。该数据集为研究软件缺陷修复的效率和效果提供了丰富的实证数据。
实际应用
在实际应用中,gitbug-java数据集为软件开发团队提供了宝贵的参考。通过分析数据集中的缺陷修复案例,开发团队可以优化自身的缺陷修复流程,提高修复效率并减少修复过程中可能引入的新缺陷。此外,该数据集还可用于培训新开发人员,帮助他们快速掌握缺陷修复的最佳实践。
衍生相关工作
基于gitbug-java数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集分析了不同开发工具在缺陷修复中的表现,提出了优化工具使用的建议。此外,还有研究基于该数据集开发了自动化缺陷修复工具,显著提高了缺陷修复的自动化水平。这些工作进一步推动了软件工程领域的发展。
以上内容由遇见数据集搜集并总结生成



