five

open-github-issues

收藏
Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/open-index/open-github-issues
下载链接
链接失效反馈
官方服务:
资源简介:
OpenGitHub Issues 是一个包含14个公共GitHub仓库完整开发元数据的开源数据集,数据通过GitHub REST API和GraphQL API获取并转换为Parquet格式。数据集包含13.6百万行数据,分布在8个表中(issues、pull_requests、comments、review_comments、reviews、timeline_events、pr_files、commit_statuses),总大小1.1GB(Zstd压缩)。数据集记录了每个问题、拉取请求、评论、代码审查、时间线事件、文件变更和CI状态检查的完整信息。主要应用场景包括代码审查研究、项目健康指标分析、问题分类和软件工程过程挖掘。数据集采用Open Data Commons Attribution License (ODC-By) v1.0许可,最后更新于2026年4月7日。
创建时间:
2026-04-05
原始信息汇总

OpenGitHub Issues 数据集概述

数据集基本信息

  • 数据集名称: OpenGitHub Issues
  • 托管地址: https://huggingface.co/datasets/open-index/open-github-issues
  • 许可证: Open Data Commons Attribution License (ODC-By) v1.0
  • 任务类别: 特征提取
  • 支持语言: 英语、多语言
  • 数据规模: 10M < n < 100M
  • 标签: GitHub、元数据、问题、拉取请求、代码审查、开源、软件工程
  • 最后更新: 2026-04-07 08:38 UTC

数据集内容与规模

该数据集包含从14个公共GitHub仓库的GitHub REST API和GraphQL API获取的完整开发元数据,已转换为Parquet格式以便于访问。

  • 总数据量: 13.6M 行,分布在8个表中,总计1.1 GB(Zstd压缩的Parquet格式)。
  • 核心内容: 每个问题、拉取请求、评论、代码审查、时间线事件、文件更改和CI状态检查都存储为独立的表,可单独加载或联合查询。
  • 配套数据集: 此数据集是OpenGitHub的配套数据集,后者通过GH Archive镜像了实时的GitHub事件流。

包含的仓库

数据集涵盖以下14个公共GitHub仓库的开发元数据:

仓库 问题数 拉取请求数 评论数 审查数 时间线事件数 总计 最后更新
ClickHouse/ClickHouse 100.8K 72.8K 303.4K 100.9K 14.4K 1.3M 2026-04-07 00:16 UTC
duckdb/duckdb 18.1K 11.4K 0 9.5K 10.0K 181.0K 2026-04-07 08:04 UTC
etcd-io/etcd 21.0K 13.8K 124.1K 28.5K 11.4K 319.2K 2026-04-06 23:32 UTC
facebook/react 33.7K 19.2K 170.7K 20.1K 251.2K 861.0K 2026-04-07 07:32 UTC
golang/go 75.9K 4.9K 536.2K 323 268.2K 957.3K 2026-04-06 23:24 UTC
mdn/content 41.5K 31.5K 157.4K 18.9K 13.2K 412.6K 2026-04-07 00:20 UTC
microsoft/TypeScript 62.1K 19.1K 336.7K 41.9K 13.2K 1.1M 2026-04-07 00:00 UTC
pingcap/tidb 67.2K 44.5K 487.4K 162.6K 10.1K 1.2M 2026-04-07 00:58 UTC
python/cpython 145.8K 69.8K 864.5K 149.9K 25.0K 1.9M 2026-04-07 00:20 UTC
redis/redis 14.6K 7.6K 81.5K 27.2K 10.9K 207.3K 2026-04-06 20:10 UTC
rust-lang/rust 154.0K 92.2K 1.5M 185.8K 46.2K 3.7M 2026-04-07 00:14 UTC
swiftlang/swift 84.4K 66.8K 447.3K 108.5K 13.9K 1.4M 2026-04-07 00:00 UTC
vuejs/core 12.1K 6.1K 35.7K 4.8K 10.4K 90.3K 2026-04-07 00:05 UTC
vuejs/docs 3.3K 2.2K 7.0K 2.7K 10.0K 40.4K 2026-04-03 19:23 UTC

数据集结构

数据文件位于 data/{table}/{owner}/{repo}/0.parquet 路径下。数据集包含以下8个配置(表):

  1. issues: 包含问题和拉取请求的共享元数据。关键字段包括:numberis_pull_requesttitlebodystateauthorcreated_atlabels(JSON)、assignees(JSON)、reactions(JSON)等。
  2. pull_requests: 拉取请求的特定字段。关键字段包括:numbermergedmerged_atadditionsdeletionschanged_filesbase_refhead_ref等。
  3. comments: 问题和拉取请求上的对话评论。关键字段包括:idissue_numberauthorbodycreated_atauthor_associationreactions(JSON)等。
  4. review_comments: PR差异中的内联代码审查评论。关键字段包括:idpr_numberreview_idauthorbodypathlinesidediff_hunk等。
  5. reviews: PR审查决策。关键字段包括:idpr_numberauthorstatebodysubmitted_atcommit_id等。
  6. timeline_events: 每个问题和PR的完整生命周期事件。关键字段包括:idissue_numberevent_typeactorcreated_atlabel_nameassignee_logindata(JSON)等。
  7. pr_files: 每个拉取请求更改的文件及每文件的差异统计。关键字段包括:pr_numberpathadditionsdeletionsstatusprevious_filename等。
  8. commit_statuses: 每个提交的CI/CD状态检查和GitHub Actions结果。关键字段包括:shacontextstatedescriptiontarget_urlcreated_at等。

各表数据统计

行数 描述
issues 834.4K 问题和拉取请求(共享元数据)
pull_requests 462.0K PR特定字段(合并状态、差异、引用)
comments 4.1M 问题和PR上的对话评论
review_comments 945.6K PR差异中的内联代码审查评论
reviews 861.5K PR审查决策
timeline_events 708.2K 活动时间线(标签、关闭、合并、分配)
pr_files 5.6M 每个拉取请求中更改的文件
commit_statuses 164.0K 每个提交的CI/CD状态检查
总计 13.6M

主要用途

  • 代码审查研究: 附带特定差异行内联评论。
  • 项目健康指标: 如合并率、审查周转时间、标签使用情况。
  • 问题分类与分类: 包含完整文本、标签和时间线。
  • 软件工程过程挖掘: 从时间线事件序列中挖掘。

技术细节与使用

  • 数据格式: Zstd压缩的Parquet文件。
  • 兼容工具: 可直接与DuckDB、datasetspandashuggingface_hub配合使用。
  • 访问方式: 支持通过DuckDB直接查询、使用Python的datasets库流式加载或下载特定文件。
  • 数据位置: 标准Hugging Face Parquet布局。

已知限制

  • 时间点快照: 数据反映最后一次同步时的状态,非实时。增量更新会捕获自上次同步以来的所有更改。
  • 包含机器人活动: 来自机器人(Dependabot、Renovate、GitHub Actions等)的评论和PR未被过滤。如需仅限人类活动,请根据author字段筛选。
  • JSON列: labelsassigneesreactionsdata列包含JSON字符串。
  • 正文文本可能很大: 问题和评论正文包含完整的Markdown,有时包含嵌入式图像。
  • 时间线数据因事件类型而异: timeline_events表中的data字段包含原始的JSON事件负载,其模式取决于event_type

隐私与许可说明

  • 用户名、用户ID和作者关联信息按其在GitHub API中的出现形式包含在内。所有数据在GitHub上已是公开可访问的。
  • 电子邮件地址未出现在此数据集中(它们仅存在于git提交对象中,这些对象位于单独的代码存档中,不在此处)。
  • 不包含任何私有仓库数据。
  • 数据根据Open Data Commons Attribution License (ODC-By) v1.0发布。原始数据受GitHub服务条款约束。
搜集汇总
数据集介绍
main_image_url
构建方式
在开源软件工程领域,数据集的构建质量直接影响研究信度。OpenGitHub Issues数据集通过精心设计的同步管道,整合GitHub REST API与GraphQL API双重数据源。REST API负责批量获取议题、评论等基础数据,采用基于时间戳的增量分页机制;GraphQL API则通过单次查询精准捕获代码评审、时间线事件等复杂关联数据。系统采用多令牌轮换策略规避速率限制,所有数据先存入DuckDB进行预处理,最终以Zstd压缩的Parquet格式发布,完整保留包括机器人活动在内的原始生态特征。
特点
该数据集呈现多维度的结构化特征,涵盖14个知名开源项目的完整开发元数据。其核心价值在于八张互相关联的数据表,分别记录议题、拉取请求、评论、代码评审等不同维度的协作信息。特别值得注意的是时间线事件表,系统化地捕捉了从标签变更到代码合并的全生命周期状态迁移。数据集采用列式存储与智能字段分离策略,将通用字段独立存储的同时,通过JSON字段保留事件特异性数据,在保证查询效率的前提下最大化信息密度。
使用方法
针对不同研究场景,该数据集提供灵活的访问范式。通过Hugging Face Datasets库可直接流式加载特定数据表,实现内存高效处理;利用DuckDB的远程查询能力,研究者无需下载即可执行跨表联合分析。数据集采用标准Parquet布局,兼容pandas等主流分析工具。典型应用包括:通过时间线事件序列挖掘软件开发流程模式,基于代码评审注释研究协作行为,或结合CI状态数据构建项目健康度评估模型。
背景与挑战
背景概述
在开源软件工程领域,深入理解项目协作与开发流程一直是研究的关键。OpenGitHub Issues数据集由Open-Index机构于近期构建,旨在为研究者提供一套全面、结构化的GitHub仓库开发元数据。该数据集精心选取了包括ClickHouse、React、CPython、Rust在内的14个知名开源项目,通过整合GitHub REST API与GraphQL API,系统性地捕获了议题、拉取请求、评论、代码审查、时间线事件等核心交互信息。其核心研究问题聚焦于如何通过大规模、细粒度的协作数据,支撑代码审查分析、项目健康度评估、议题自动分类及软件工程过程挖掘等前沿探索,为开源生态的实证研究提供了前所未有的数据基础。
当前挑战
该数据集致力于解决软件工程协作分析领域的核心挑战,即如何从海量、异构的开源项目交互数据中,提取可量化、可复现的协作模式与质量指标。其构建过程面临多重技术挑战:首先,需高效处理GitHub API的速率限制与数据分页,通过多令牌轮询与增量同步策略确保数千万行数据的完整采集;其次,数据模式高度复杂,需将嵌套的JSON结构(如标签、反应数据)与不同类型的时间线事件统一转换为关系型表格,同时保持原始语义。此外,数据集包含机器人活动与大规模Markdown文本,在进行分析前需进行有效的数据清洗与特征工程,以聚焦于人类协作行为。
常用场景
经典使用场景
在开源软件工程领域,OpenGitHub Issues数据集为研究者提供了大规模、结构化的开发元数据。该数据集最经典的使用场景在于代码审查研究,通过整合拉取请求、内联评论和文件变更信息,能够深入分析代码审查过程中的沟通模式与决策机制。例如,研究者可以追踪特定代码行的评论历史,评估审查效率与代码质量之间的关联,从而揭示高效审查实践的特征。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作。在代码审查领域,学者利用内联评论数据构建了审查意见分类模型,识别出安全、性能等关键评论类型。过程挖掘研究则通过时间线事件重构了议题解决的状态机模型,揭示了不同项目的协作模式差异。另有工作专注于开发者行为分析,基于评论与反应数据预测贡献者参与度。这些研究共同推动了基于数据的软件工程方法论发展。
数据集最近研究
最新研究方向
在开源软件工程领域,OpenGitHub Issues数据集为研究者提供了深入探索协作开发动态的宝贵资源。该数据集整合了多个知名开源项目的完整开发元数据,包括议题、拉取请求、代码审查对话及时间线事件,为软件工程过程挖掘与智能辅助工具开发奠定了数据基础。当前研究前沿聚焦于利用大语言模型分析代码审查中的语义模式,以自动化识别低质量贡献或预测合并风险;同时,结合时间序列分析,研究者正探索项目健康度指标的演化规律,旨在构建更精准的开源社区可持续性评估框架。这些研究方向不仅呼应了业界对高效协作流程的持续追求,也为开源生态的治理优化提供了数据驱动的洞察。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作