github_issues

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/helloadhavan/github_issues

下载链接

链接失效反馈

官方服务：

资源简介：

GitHub Issues + Fixes Dataset 是一个精选的高质量数据集，包含从25个流行开源仓库收集的GitHub问题及其修复代码。每个样本将一个真实的GitHub问题与解决该问题的具体代码变更（差异）配对。数据集通过GitHub REST API收集，并经过严格筛选，仅包含已关闭且有明确关联修复的问题。数据以结构化格式存储，每个条目包含仓库信息、问题编号、问题标题、问题正文、修复提交的SHA哈希以及修改文件列表（包括文件名、差异、添加和删除的行数）。数据集支持多种编程语言，如C/C++、Python、JavaScript/TypeScript、Rust、Go和Java等，适用于自动化错误修复、基于LLM的代码代理、问题到补丁生成以及程序修复研究等任务。数据集当前包含10/25个仓库的问题和14k行数据，预计最终将达到50k行和2GB大小。

创建时间：

2026-04-04

原始信息汇总

GitHub Issues + Fixes 数据集概述

数据集基本信息

数据集名称: Github issues dataset
托管地址: https://huggingface.co/datasets/helloadhavan/github_issues
许可证: MIT
主要语言: 英语 (en)
任务类别: 文本生成 (text-generation)
标签: 代码 (code)
数据规模: 10K < n < 100K (中等规模)

数据内容与来源

数据描述: 一个从 25个流行的开源仓库 中收集的、经过筛选的高价值 GitHub Issues 数据集。每个样本将一个真实的 GitHub Issue 与其解决问题的 精确代码变更（差异对比） 配对。
数据收集方法: 使用 GitHub REST API 收集并处理为结构化格式。
质量控制:
- 仅考虑 已关闭的 Issue。
- 每个 Issue 必须有一个 明确关联的修复。
- 修复内容以从解决提交中提取的 统一差异对比 形式存储。
- 过滤掉了低价值 Issue（如问题、重复项、讨论）。
- 排除了没有实质性代码变更的 Issue。
当前状态警告: 该数据集当前包含 10/25 个仓库的 Issue，共 14k 行数据，但预期将达到 50k 行和 2 GB 大小。

数据集结构

数据格式: 每一行代表一个 Issue-修复对。
特征字段:
- repo: 字符串类型，表示 GitHub 仓库（格式为 owner/repository）。
- issue_number: int64 类型，表示原始 GitHub Issue 编号。
- issue_title: 字符串类型，表示 Issue 的标题。
- issue_body: 字符串类型，表示完整的 Issue 描述和上下文。
- commit_sha: 字符串类型，表示修复该 Issue 的提交哈希。
- files: 列表类型，包含修改的文件列表。每个文件包含以下子字段：
  - filename: 字符串类型，表示被修改文件的路径。
  - patch: 字符串类型，表示代表修复内容的统一差异对比。
  - additions: int64 类型，表示新增的行数。
  - deletions: int64 类型，表示删除的行数。

数据划分与规模

划分数量: 4 个划分 (split1, split2, split3, split4)。
总体规模:
- 下载大小: 137,319,300 字节。
- 数据集大小: 422,167,155 字节。
各划分详情:
- split1: 40,000 个样本，112,658,160 字节。
- split2: 40,000 个样本，116,854,026 字节。
- split3: 40,000 个样本，115,010,499 字节。
- split4: 24,002 个样本，77,644,470 字节。

支持的语言

数据集包含多种编程语言的修复，包括但不限于：

C / C++
Python
JavaScript / TypeScript
Rust
Go
Java
Assembly (非常罕见) 语言分布因仓库而异。

设计用途

该数据集适用于：

自动化错误修复。
基于LLM的代码代理。
从 Issue 生成补丁。
程序修复研究。
训练模型从 Issue 描述生成代码补丁。
评估 LLM 对真实世界错误报告的推理能力。
构建自主调试或重构代理。
程序修复、代码合成和软件维护的研究。

不适用场景

该数据集不适用于：

Issue 分类。
情感分析。
没有代码生成的聊天机器人微调。

局限性

数据集反映了 GitHub Issues 中真实存在的噪声。
Issue 描述的清晰度和详细程度差异很大。
一些修复涉及重构或设计变更，而非最小化补丁。
不保证所有修复都是最优或最佳实践。

搜集汇总

数据集介绍

构建方式

在软件工程领域，追踪和解决代码缺陷是持续集成与维护的核心环节。该数据集通过GitHub REST API系统性地采集了25个知名开源仓库的已关闭问题，并严格筛选出具有明确关联修复提交的案例。为确保数据质量，仅保留包含实质性代码变更的问题，剔除了讨论、重复项及低信息量的条目，最终将每个问题与其对应的代码差异（统一差异格式）精确配对，形成结构化的问题-修复对。

特点

该数据集以其高信噪比和真实世界代表性而著称，涵盖了从C++、Python到JavaScript等多种编程语言的修复实例。每个条目不仅包含问题的标题与详细描述，还精确关联了解决该问题的具体提交及其文件级别的代码差异，包括增删行数。这种设计使得数据集能够直接支持从自然语言问题描述到代码补丁生成的端到端建模，为自动化程序修复研究提供了丰富的、贴近实际开发场景的语料基础。

使用方法

该数据集主要服务于基于大语言模型的代码代理、自动化缺陷修复以及程序合成等研究方向。使用者可加载指定分割（如split1至split4）的数据，直接利用‘issue_body’字段作为模型输入，并以‘files’字段中的‘patch’作为训练或评估的目标输出。研究人员可借此训练模型学习从问题描述中推断并生成正确的代码变更，或评估模型在真实软件维护任务上的推理能力，但需注意数据本身存在的噪声及修复策略的多样性。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化程序修复与代码生成研究长期面临高质量数据稀缺的挑战。GitHub Issues数据集由研究机构于近年构建，旨在通过采集真实开源项目的议题与对应修复代码，为自动化缺陷修复、基于大语言模型的代码代理等任务提供结构化语料。该数据集精选25个流行开源仓库，将已关闭的议题与其解决提交的代码差异精确配对，核心研究问题聚焦于如何从自然语言描述中推导出精确的代码变更，显著推动了程序合成与软件维护智能化的发展。

当前挑战

该数据集致力于解决自动化程序修复领域的核心挑战，即如何准确理解自然语言描述的软件缺陷并生成正确的代码补丁。议题描述的多样性与模糊性、修复策略的非最小化特性以及跨编程语言的泛化需求，均构成了模型训练与评估的难点。在构建过程中，研究者需克服数据质量控制的困难，包括过滤低信号议题、确保修复关联的明确性，以及处理真实世界数据中固有的噪声与不一致性，这些挑战共同影响了数据集的规模扩展与代表性。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，GitHub Issues数据集为自动化程序修复研究提供了宝贵的实验素材。该数据集通过精心收集并配对真实GitHub问题报告与对应的代码修复差异，构建了一个高信号强度的训练与评估基准。研究人员能够利用这些结构化数据，训练模型从自然语言描述中理解缺陷本质，并自动生成精准的代码补丁，从而推动智能编程助手与自动化调试系统的发展。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，主要集中在基于深度学习的程序自动修复和代码生成领域。例如，研究者利用其训练序列到序列模型或预训练语言模型，实现从问题描述到补丁的端到端生成。这些工作进一步探索了模型在理解跨文件变更、处理多种编程语言以及进行复杂设计重构等方面的能力，持续推动着智能软件工程前沿的拓展。

数据集最近研究