github-repos-metadata-40M

github2025-09-02 更新2025-09-05 收录

下载链接：

https://github.com/ibragim-bad/github-repos-metadata-40M

下载链接

链接失效反馈

官方服务：

资源简介：

一个清理过的、可用于分析的数据集，包含从GH Archive事件聚合的每个仓库统计信息：星标数、分支数、拉取请求、开放问题、可见性、语言信号等。列名尽可能镜像GH Archive/GitHub API语义

A cleaned, analysis-ready dataset containing per-repository statistics aggregated from GH Archive events, including star counts, fork counts, pull requests, open issues, visibility status, language signals, and more. Column names mirror the semantics of the GH Archive/GitHub API as closely as possible.

创建时间：

2025-09-02

原始信息汇总

数据集概述：40 million GitHub repositories 元数据

基本信息

数据集名称：Metadata for 40 million GitHub repositories
数据来源：GH Archive（公共 GitHub 事件流）
数据格式：Parquet
许可证：MIT License
数据量：4000 万个 GitHub 仓库

数据内容

每个行聚合了从 GH Archive 事件和 GitHub 元数据快派生的仓库级统计信息。

数据列（Schema）

列名	类型	描述
`repo_name`	string	仓库所有者/名称
`language`	string	主要编程语言（人类可读）
`created_at`	timestamp	仓库创建时间（UTC，如果可用）
`description`	string	仓库描述
`description_language`	string	检测到的仓库描述自然语言代码（ISO 639-1/2）
`description_language_score`	float32	描述语言检测的置信度分数（0-1）
`license_key`	string	SPDX 类许可证密钥
`forks_count`	int64	当前 forks 数量
`watchers_count`	int64	观察者/星星数量
`size`	int64	仓库大小（KB，GitHub 报告）
`last_pr_id`	int64	最新可用的 PR ID

构建方法（ETL）

数据源：GH Archive 公共事件流；时间窗口截至 2025-07-23（UTC）
事件过滤：
- CreateEvent（ref_type=repository）用于捕获初始仓库创建和时间戳
- PullRequestEvent 用于获取 PR 负载中嵌入的丰富仓库快照
提取：
- 解析 event.repo 和 payload.*.repo 快照
- 跟踪最新观察到的 PR 标识符作为 last_pr_id
聚合：
- 按 repo_name 分组；保留时间窗口内的最新快照

使用案例

星星/forks/PRs 的趋势分析
语言混合和仓库增长信号
按活动/稳定性排名
机器学习模型的输入特征（质量或流行度预测）

局限性

仅反映公共事件；私有仓库不在范围内
某些 GitHub 字段有历史遗留问题
源数据不可用时存在缺失值
覆盖主要来自 PullRequestEvent 快照；没有任何 PR 的仓库通常缺失
星星/观察者和 forks 来自事件时间快照，可能比实时 GitHub 略有滞后

引用信息

bibtex @misc{github_repos_activity_stats_2025, title = {GitHub Repos Activity Stats (from GH Archive)}, author = {Ibragim Badertdinov}, year = {2025}, howpublished = {url{https://huggingface.co/datasets/ibraigm-bad/github-repos-metadata-40M}} }

搜集汇总

数据集介绍

构建方式

在开源软件生态系统的研究中，数据集的构建方法至关重要。本数据集源自GH Archive公共事件流，通过精心设计的ETL流程提取和聚合信息。数据提取阶段聚焦于CreateEvent和PullRequestEvent，从中解析仓库名称、描述、编程语言、许可证等关键元数据，并记录最新拉取请求标识符。随后按仓库名称分组，保留时间窗口内的最新快照，确保数据的时效性和完整性。

特点

该数据集囊括了4000万个GitHub仓库的丰富元数据，具有多维度的统计特征。每行数据代表一个仓库的聚合信息，包含 stars、forks、pull requests等活跃度指标，以及编程语言、许可证类型、仓库大小等静态属性。特别值得注意的是，数据集还提供了仓库描述的语言检测结果及其置信度评分，为跨语言研究提供了便利。数据模式与GH Archive和GitHub API语义保持一致，便于研究者进行对比和扩展分析。

使用方法

研究者可通过Hugging Face数据集库快速加载该数据集，支持完整版本或100万个仓库的随机采样版本。数据以Parquet格式存储，适合大规模分析处理。典型应用场景包括开源项目流行度趋势分析、编程语言生态研究、仓库活跃度排名，以及作为机器学习模型的输入特征进行质量预测。配套提供的数据可视化笔记本可帮助用户快速开展探索性数据分析，了解数据分布和特征关系。

背景与挑战

背景概述

随着开源软件生态的蓬勃发展，对大规模代码仓库进行量化分析成为软件工程研究的重要方向。2025年由研究者Ibragim Badertdinov构建的github-repos-metadata-40M数据集，基于GH Archive事件流聚合了4000万个GitHub仓库的元数据，涵盖星标数、分支数、拉取请求等关键指标。该数据集通过标准化字段映射GitHub API语义，为开发者行为分析、项目流行度预测及编程语言趋势研究提供了高质量基准，显著推动了开源软件生态系统的实证研究进展。

当前挑战

在解决开源项目质量评估与流行度预测问题时，该数据集需应对仓库活动指标的动态性挑战，例如星标数与分支数的时效性偏差。构建过程中面临多重技术难点：GH Archive仅收录公开事件导致私有仓库数据缺失，PullRequestEvent依赖型采集使无PR活动的仓库无法覆盖，且事件载荷中关键字段的异构性与空值问题需通过复杂的ETL流程进行清洗和聚合，这些因素共同制约了数据的完整性与实时性。

常用场景

经典使用场景

在开源软件生态研究领域，该数据集为分析代码库演化趋势提供了重要支撑。研究者可通过时间序列分析星标数、分支数和拉取请求量的动态变化，识别流行技术栈的兴衰周期，并基于语言分布和许可证类型绘制开源社区的协作图谱。

衍生相关工作

基于该数据集衍生了多项经典研究，包括基于星标预测的流行度分析模型、多语言代码库关联图谱构建、开发者行为模式挖掘系统。这些工作推动了软件仓库挖掘领域的理论发展，并为GitHub生态系统研究建立了基准方法论。

数据集最近研究