open-github-issues
收藏Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/open-index/open-github-issues
下载链接
链接失效反馈官方服务:
资源简介:
OpenGitHub Issues 是一个包含14个公共GitHub仓库完整开发元数据的开源数据集,数据通过GitHub REST API和GraphQL API获取并转换为Parquet格式。数据集包含13.6百万行数据,分布在8个表中(issues、pull_requests、comments、review_comments、reviews、timeline_events、pr_files、commit_statuses),总大小1.1GB(Zstd压缩)。数据集记录了每个问题、拉取请求、评论、代码审查、时间线事件、文件变更和CI状态检查的完整信息。主要应用场景包括代码审查研究、项目健康指标分析、问题分类和软件工程过程挖掘。数据集采用Open Data Commons Attribution License (ODC-By) v1.0许可,最后更新于2026年4月7日。
创建时间:
2026-04-05
原始信息汇总
OpenGitHub Issues 数据集概述
数据集基本信息
- 数据集名称: OpenGitHub Issues
- 托管地址: https://huggingface.co/datasets/open-index/open-github-issues
- 许可证: Open Data Commons Attribution License (ODC-By) v1.0
- 任务类别: 特征提取
- 支持语言: 英语、多语言
- 数据规模: 10M < n < 100M
- 标签: GitHub、元数据、问题、拉取请求、代码审查、开源、软件工程
- 最后更新: 2026-04-07 08:38 UTC
数据集内容与规模
该数据集包含从14个公共GitHub仓库的GitHub REST API和GraphQL API获取的完整开发元数据,已转换为Parquet格式以便于访问。
- 总数据量: 13.6M 行,分布在8个表中,总计1.1 GB(Zstd压缩的Parquet格式)。
- 核心内容: 每个问题、拉取请求、评论、代码审查、时间线事件、文件更改和CI状态检查都存储为独立的表,可单独加载或联合查询。
- 配套数据集: 此数据集是OpenGitHub的配套数据集,后者通过GH Archive镜像了实时的GitHub事件流。
包含的仓库
数据集涵盖以下14个公共GitHub仓库的开发元数据:
| 仓库 | 问题数 | 拉取请求数 | 评论数 | 审查数 | 时间线事件数 | 总计 | 最后更新 |
|---|---|---|---|---|---|---|---|
| ClickHouse/ClickHouse | 100.8K | 72.8K | 303.4K | 100.9K | 14.4K | 1.3M | 2026-04-07 00:16 UTC |
| duckdb/duckdb | 18.1K | 11.4K | 0 | 9.5K | 10.0K | 181.0K | 2026-04-07 08:04 UTC |
| etcd-io/etcd | 21.0K | 13.8K | 124.1K | 28.5K | 11.4K | 319.2K | 2026-04-06 23:32 UTC |
| facebook/react | 33.7K | 19.2K | 170.7K | 20.1K | 251.2K | 861.0K | 2026-04-07 07:32 UTC |
| golang/go | 75.9K | 4.9K | 536.2K | 323 | 268.2K | 957.3K | 2026-04-06 23:24 UTC |
| mdn/content | 41.5K | 31.5K | 157.4K | 18.9K | 13.2K | 412.6K | 2026-04-07 00:20 UTC |
| microsoft/TypeScript | 62.1K | 19.1K | 336.7K | 41.9K | 13.2K | 1.1M | 2026-04-07 00:00 UTC |
| pingcap/tidb | 67.2K | 44.5K | 487.4K | 162.6K | 10.1K | 1.2M | 2026-04-07 00:58 UTC |
| python/cpython | 145.8K | 69.8K | 864.5K | 149.9K | 25.0K | 1.9M | 2026-04-07 00:20 UTC |
| redis/redis | 14.6K | 7.6K | 81.5K | 27.2K | 10.9K | 207.3K | 2026-04-06 20:10 UTC |
| rust-lang/rust | 154.0K | 92.2K | 1.5M | 185.8K | 46.2K | 3.7M | 2026-04-07 00:14 UTC |
| swiftlang/swift | 84.4K | 66.8K | 447.3K | 108.5K | 13.9K | 1.4M | 2026-04-07 00:00 UTC |
| vuejs/core | 12.1K | 6.1K | 35.7K | 4.8K | 10.4K | 90.3K | 2026-04-07 00:05 UTC |
| vuejs/docs | 3.3K | 2.2K | 7.0K | 2.7K | 10.0K | 40.4K | 2026-04-03 19:23 UTC |
数据集结构
数据文件位于 data/{table}/{owner}/{repo}/0.parquet 路径下。数据集包含以下8个配置(表):
issues: 包含问题和拉取请求的共享元数据。关键字段包括:number、is_pull_request、title、body、state、author、created_at、labels(JSON)、assignees(JSON)、reactions(JSON)等。pull_requests: 拉取请求的特定字段。关键字段包括:number、merged、merged_at、additions、deletions、changed_files、base_ref、head_ref等。comments: 问题和拉取请求上的对话评论。关键字段包括:id、issue_number、author、body、created_at、author_association、reactions(JSON)等。review_comments: PR差异中的内联代码审查评论。关键字段包括:id、pr_number、review_id、author、body、path、line、side、diff_hunk等。reviews: PR审查决策。关键字段包括:id、pr_number、author、state、body、submitted_at、commit_id等。timeline_events: 每个问题和PR的完整生命周期事件。关键字段包括:id、issue_number、event_type、actor、created_at、label_name、assignee_login、data(JSON)等。pr_files: 每个拉取请求更改的文件及每文件的差异统计。关键字段包括:pr_number、path、additions、deletions、status、previous_filename等。commit_statuses: 每个提交的CI/CD状态检查和GitHub Actions结果。关键字段包括:sha、context、state、description、target_url、created_at等。
各表数据统计
| 表 | 行数 | 描述 |
|---|---|---|
issues |
834.4K | 问题和拉取请求(共享元数据) |
pull_requests |
462.0K | PR特定字段(合并状态、差异、引用) |
comments |
4.1M | 问题和PR上的对话评论 |
review_comments |
945.6K | PR差异中的内联代码审查评论 |
reviews |
861.5K | PR审查决策 |
timeline_events |
708.2K | 活动时间线(标签、关闭、合并、分配) |
pr_files |
5.6M | 每个拉取请求中更改的文件 |
commit_statuses |
164.0K | 每个提交的CI/CD状态检查 |
| 总计 | 13.6M |
主要用途
- 代码审查研究: 附带特定差异行内联评论。
- 项目健康指标: 如合并率、审查周转时间、标签使用情况。
- 问题分类与分类: 包含完整文本、标签和时间线。
- 软件工程过程挖掘: 从时间线事件序列中挖掘。
技术细节与使用
- 数据格式: Zstd压缩的Parquet文件。
- 兼容工具: 可直接与DuckDB、
datasets、pandas和huggingface_hub配合使用。 - 访问方式: 支持通过DuckDB直接查询、使用Python的
datasets库流式加载或下载特定文件。 - 数据位置: 标准Hugging Face Parquet布局。
已知限制
- 时间点快照: 数据反映最后一次同步时的状态,非实时。增量更新会捕获自上次同步以来的所有更改。
- 包含机器人活动: 来自机器人(Dependabot、Renovate、GitHub Actions等)的评论和PR未被过滤。如需仅限人类活动,请根据
author字段筛选。 - JSON列:
labels、assignees、reactions和data列包含JSON字符串。 - 正文文本可能很大: 问题和评论正文包含完整的Markdown,有时包含嵌入式图像。
- 时间线数据因事件类型而异:
timeline_events表中的data字段包含原始的JSON事件负载,其模式取决于event_type。
隐私与许可说明
- 用户名、用户ID和作者关联信息按其在GitHub API中的出现形式包含在内。所有数据在GitHub上已是公开可访问的。
- 电子邮件地址未出现在此数据集中(它们仅存在于git提交对象中,这些对象位于单独的代码存档中,不在此处)。
- 不包含任何私有仓库数据。
- 数据根据Open Data Commons Attribution License (ODC-By) v1.0发布。原始数据受GitHub服务条款约束。
搜集汇总
数据集介绍

构建方式
在开源软件工程领域,数据集的构建质量直接影响研究信度。OpenGitHub Issues数据集通过精心设计的同步管道,整合GitHub REST API与GraphQL API双重数据源。REST API负责批量获取议题、评论等基础数据,采用基于时间戳的增量分页机制;GraphQL API则通过单次查询精准捕获代码评审、时间线事件等复杂关联数据。系统采用多令牌轮换策略规避速率限制,所有数据先存入DuckDB进行预处理,最终以Zstd压缩的Parquet格式发布,完整保留包括机器人活动在内的原始生态特征。
特点
该数据集呈现多维度的结构化特征,涵盖14个知名开源项目的完整开发元数据。其核心价值在于八张互相关联的数据表,分别记录议题、拉取请求、评论、代码评审等不同维度的协作信息。特别值得注意的是时间线事件表,系统化地捕捉了从标签变更到代码合并的全生命周期状态迁移。数据集采用列式存储与智能字段分离策略,将通用字段独立存储的同时,通过JSON字段保留事件特异性数据,在保证查询效率的前提下最大化信息密度。
使用方法
针对不同研究场景,该数据集提供灵活的访问范式。通过Hugging Face Datasets库可直接流式加载特定数据表,实现内存高效处理;利用DuckDB的远程查询能力,研究者无需下载即可执行跨表联合分析。数据集采用标准Parquet布局,兼容pandas等主流分析工具。典型应用包括:通过时间线事件序列挖掘软件开发流程模式,基于代码评审注释研究协作行为,或结合CI状态数据构建项目健康度评估模型。
背景与挑战
背景概述
在开源软件工程领域,深入理解项目协作与开发流程一直是研究的关键。OpenGitHub Issues数据集由Open-Index机构于近期构建,旨在为研究者提供一套全面、结构化的GitHub仓库开发元数据。该数据集精心选取了包括ClickHouse、React、CPython、Rust在内的14个知名开源项目,通过整合GitHub REST API与GraphQL API,系统性地捕获了议题、拉取请求、评论、代码审查、时间线事件等核心交互信息。其核心研究问题聚焦于如何通过大规模、细粒度的协作数据,支撑代码审查分析、项目健康度评估、议题自动分类及软件工程过程挖掘等前沿探索,为开源生态的实证研究提供了前所未有的数据基础。
当前挑战
该数据集致力于解决软件工程协作分析领域的核心挑战,即如何从海量、异构的开源项目交互数据中,提取可量化、可复现的协作模式与质量指标。其构建过程面临多重技术挑战:首先,需高效处理GitHub API的速率限制与数据分页,通过多令牌轮询与增量同步策略确保数千万行数据的完整采集;其次,数据模式高度复杂,需将嵌套的JSON结构(如标签、反应数据)与不同类型的时间线事件统一转换为关系型表格,同时保持原始语义。此外,数据集包含机器人活动与大规模Markdown文本,在进行分析前需进行有效的数据清洗与特征工程,以聚焦于人类协作行为。
常用场景
经典使用场景
在开源软件工程领域,OpenGitHub Issues数据集为研究者提供了大规模、结构化的开发元数据。该数据集最经典的使用场景在于代码审查研究,通过整合拉取请求、内联评论和文件变更信息,能够深入分析代码审查过程中的沟通模式与决策机制。例如,研究者可以追踪特定代码行的评论历史,评估审查效率与代码质量之间的关联,从而揭示高效审查实践的特征。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作。在代码审查领域,学者利用内联评论数据构建了审查意见分类模型,识别出安全、性能等关键评论类型。过程挖掘研究则通过时间线事件重构了议题解决的状态机模型,揭示了不同项目的协作模式差异。另有工作专注于开发者行为分析,基于评论与反应数据预测贡献者参与度。这些研究共同推动了基于数据的软件工程方法论发展。
数据集最近研究
最新研究方向
在开源软件工程领域,OpenGitHub Issues数据集为研究者提供了深入探索协作开发动态的宝贵资源。该数据集整合了多个知名开源项目的完整开发元数据,包括议题、拉取请求、代码审查对话及时间线事件,为软件工程过程挖掘与智能辅助工具开发奠定了数据基础。当前研究前沿聚焦于利用大语言模型分析代码审查中的语义模式,以自动化识别低质量贡献或预测合并风险;同时,结合时间序列分析,研究者正探索项目健康度指标的演化规律,旨在构建更精准的开源社区可持续性评估框架。这些研究方向不仅呼应了业界对高效协作流程的持续追求,也为开源生态的治理优化提供了数据驱动的洞察。
以上内容由遇见数据集搜集并总结生成



