GitHub Recent Bugs (GHRB) Dataset

Name: GitHub Recent Bugs (GHRB) Dataset
Creator: 韩国科学技术院
Published: 2023-11-02 08:44:43
License: 暂无描述

arXiv2023-11-02 更新2024-06-21 收录

下载链接：

https://github.com/coinse/GHRB

下载链接

链接失效反馈

官方服务：

资源简介：

GitHub Recent Bugs (GHRB) Dataset是由韩国科学技术院创建的一个包含76个真实世界Java bug的数据集。该数据集旨在评估基于大型语言模型（LLM）的调试应用，特别关注于避免数据泄露问题。数据集中的bug均在2021年9月之后被修复，确保不包含在LLM的训练数据中。GHRB数据集不仅提供了bug的详细信息，还包括了bug揭示测试和补丁信息，适用于软件工程领域的标准化和公平评估。

The GitHub Recent Bugs (GHRB) Dataset is a collection of 76 real-world Java bugs developed by the Korea Advanced Institute of Science and Technology. This dataset is designed to evaluate large language model (LLM)-based debugging applications, with a particular focus on mitigating data leakage issues. All bugs included in the dataset were fixed after September 2021, ensuring that they are not part of the training data for LLMs. The GHRB Dataset not only provides detailed information about each bug, but also offers bug-revealing test cases and patch information, making it suitable for standardized and fair evaluations in the field of software engineering.

提供机构：

韩国科学技术院

创建时间：

2023-10-20

搜集汇总

数据集介绍

构建方式

在软件工程领域，随着大语言模型在代码生成与调试任务中的广泛应用，传统缺陷数据集面临数据泄露风险。GitHub Recent Bugs (GHRB) 数据集通过系统化流程构建，首先整合高星标Java仓库与既有基准库，自动筛选2021年9月后创建的关联缺陷报告的拉取请求。随后采用LangID工具确保缺陷描述为英文，并通过自动化与人工双重验证排除非代码缺陷、非确定性测试及无关修改，最终保留76个满足可复现性、隔离性且与核心功能相关的真实Java缺陷。

特点

该数据集的核心特征在于其时间敏感性与数据纯净度。所有缺陷均产生于OpenAI训练数据截止日期之后，并经过StarCoder训练数据重叠检测，确保评估过程免受大语言模型记忆效应干扰。数据集涵盖16个不同规模与流行度的Java项目，每个缺陷均提供完整的元数据、缺陷揭示测试用例及补丁差异信息。其结构化设计支持对缺陷定位、程序修复等任务的标准化评估，为软件工程研究提供了免受数据污染影响的可靠基准。

使用方法

研究者可通过数据集提供的命令行接口便捷访问缺陷版本与修复版本，无需深入理解各项目的版本控制系统细节。接口自动识别构建工具与JDK版本，生成配置文件以简化编译流程。测试执行时，系统自动加载失败测试信息，实现高效缺陷复现。该抽象层设计显著降低了环境配置负担，使研究者能专注于算法性能评估，适用于大语言模型在调试、程序修复等任务中的泛化能力验证。

背景与挑战

背景概述

在软件工程领域，随着大语言模型（LLMs）在代码生成与调试任务中展现出卓越能力，其训练数据的透明度问题逐渐凸显。由KAIST研究团队于2023年构建的GitHub Recent Bugs（GHRB）数据集，旨在应对现有缺陷基准（如Defects4J）可能被LLMs训练数据覆盖而导致的评估偏差。该数据集聚焦于Java语言中的真实世界缺陷，核心研究问题在于为LLM驱动的调试应用提供一个无数据泄漏风险的评估基准，从而推动软件工程中机器学习方法的可靠性与泛化能力研究。

当前挑战

GHRB数据集致力于解决LLM在软件缺陷修复与调试任务中因训练数据污染而难以区分模型泛化与记忆效应的问题。构建过程中的挑战包括：确保所有缺陷均来源于OpenAI训练数据截止点（2021年9月）之后，以规避数据重叠；通过自动化流程与人工核查筛选出符合严格标准的缺陷，例如缺陷需位于源代码核心功能、具备可复现的失败测试，且修复版本不包含无关代码变更；同时需验证数据集在开源LLM（如StarCoder）训练数据中未被包含，以保障评估的公正性。

常用场景

经典使用场景

在软件工程领域，随着大语言模型在代码生成与调试任务中的广泛应用，评估其泛化能力成为研究焦点。GitHub Recent Bugs (GHRB) 数据集通过收集2021年9月后出现的真实Java缺陷，为研究者提供了一个无数据泄露风险的基准测试平台。该数据集最经典的使用场景在于评估基于大语言模型的自动程序修复与缺陷定位技术，确保模型性能源于其泛化能力而非对训练数据的记忆。

衍生相关工作

GHRB数据集衍生了一系列经典研究工作，例如基于大语言模型的少样本测试生成与程序修复技术的创新评估。这些工作不仅扩展了数据集的适用范围，还催生了针对多语言缺陷基准的构建探索。同时，该数据集启发了对训练数据污染问题的深入分析，推动了软件工程领域在模型透明度与评估方法学上的进步。

数据集最近研究