five

GHPR dataset

收藏
github2020-02-28 更新2024-05-31 收录
下载链接:
https://github.com/HickeyHsu/GHPR_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
GHPR数据集基于Github工作流程中的PRs识别缺陷信息,用于软件缺陷预测。此前的研究通过Github上的git提交或问题来识别缺陷源代码部分,但许多提交(或问题)的描述结构不佳,增加了缺陷数据集的噪声。我们认为,通过团队审查和Github工作流程获得的缺陷信息更为准确。

The GHPR dataset identifies defect information based on Pull Requests (PRs) in GitHub workflows, and is used for software defect prediction. Previous research identified defective source code sections through git commits or issues on GitHub, but many commits (or issues) have poorly structured descriptions, which increases the noise in the defect dataset. We believe that defect information obtained through team reviews and GitHub workflows is more accurate.
创建时间:
2019-11-06
原始信息汇总

GHPR数据集概述

数据集描述

GHPR数据集旨在通过GitHub工作流程中的Pull Requests(PRs)识别缺陷信息。与以往通过Git提交或问题来识别缺陷的方法不同,GHPR数据集认为团队审查和GitHub工作流程中的缺陷信息更为准确。

数据集内容

数据名称 类型 描述
Project Name Project Information 项目名称
Project Owner - 项目所有者
Language - 项目编程语言
Git_Address - 项目Git地址
Project Description - 项目描述(由所有者提供)
Project Label - 项目标签(由所有者提供)
PR Title PRs information from remote repository 缺陷相关PR的标题
PR Description - 缺陷相关PR的描述
SHA New - 缺陷修复后版本的ID
SHA Old - 缺陷修复前版本的ID
Path - 修复前后版本间变更文件的路径
Content_New Defect related Code 缺陷修复后相关文件的内容
Content_Old - 缺陷修复前相关文件的内容
Defect Code - 从相关文件内容中识别的缺陷代码
搜集汇总
数据集介绍
main_image_url
构建方式
GHPR数据集的构建是基于GitHub工作流中的Pull Request(PR)来识别缺陷信息。该数据集的构建采集了项目名称、所有者、编程语言、Git地址、项目描述等基础信息,并针对每个缺陷相关的PR,记录了标题、描述、修复前后的版本ID、文件路径以及文件内容。通过对比不同版本间的代码差异,识别并标注出缺陷代码。
特点
GHPR数据集的特点在于利用团队审查和GitHub工作流的缺陷信息,提高了缺陷识别的准确性。数据集涵盖了多个项目的详细信息,以及与缺陷相关的PR信息,包括PR的标题、描述和相关代码的变更历史。此外,数据集通过提供修复前后的代码内容,使得研究人员能够更深入地分析缺陷的成因及修复过程。
使用方法
使用GHPR数据集时,用户可以首先通过.csv和.sql文件格式导入数据。随后,用户可以依据项目信息、PR信息和代码变更记录来进行数据分析和模型训练。针对缺陷代码的分析,用户可以直接利用数据集中标注的缺陷代码部分,进行进一步的缺陷检测算法研究和评估。
背景与挑战
背景概述
GHPR数据集是一项旨在提高软件缺陷识别准确性的研究产物,其创建于对传统基于Git提交或问题报告的缺陷识别方法的不完善描述问题的反思之上。该数据集由项目评审与GitHub工作流中的Pull Requests(PRs)为基础,汇集了项目名称、所有者、编程语言、Git地址、项目描述及标签等详细信息。GHPR数据集的核心研究问题是利用团队评审过程中的信息来更精确地识别缺陷。此数据集的构建得到了学术界的认可,并在软件工程领域产生了积极影响。
当前挑战
在构建GHPR数据集的过程中,研究团队面临的挑战主要包括:如何有效提取和利用PR中的缺陷信息,以及如何减少由于Git提交或问题报告描述不规范导致的噪声数据。此外,数据集的构建还必须处理不同项目间信息的异构性,保证数据的准确性和一致性。在研究领域问题上,GHPR数据集旨在解决传统的基于代码变更历史和问题报告的缺陷识别方法的局限性,提高缺陷识别的准确度和效率。
常用场景
经典使用场景
GHPR数据集的典型应用场景在于对GitHub中拉取请求(Pull Requests, PRs)的分析,以识别其中的缺陷信息。该数据集通过整合项目信息、PR标题及描述、代码版本更迭等维度数据,为研究人员提供了一种全新的视角,以探究软件开发过程中缺陷识别的准确性。
衍生相关工作
基于GHPR数据集,研究者可以开展诸多衍生工作,如构建更为精确的缺陷预测模型、探索缺陷识别的新算法,以及深入分析软件开发过程中的协作模式和缺陷产生规律等,从而推动软件工程领域的学术研究和实践发展。
数据集最近研究
最新研究方向
在软件工程领域,缺陷识别是提高软件质量的关键环节。GHPR数据集的构建,着眼于利用GitHub拉取请求(PR)中的信息来精准识别缺陷。该数据集通过整合项目信息、PR标题与描述、版本变更历史等维度数据,为研究者提供了全新的视角。当前,该数据集正被用于探索基于团队审查和GitHub工作流的缺陷信息准确性提升方法,有望推动缺陷预测和修复技术的进步,对于软件开发实践具有重要的指导意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作