github-top-projects
收藏Hugging Face2025-12-05 更新2025-12-06 收录
下载链接:
https://huggingface.co/datasets/ronantakizawa/github-top-projects
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含423,098个GitHub热门仓库条目的综合数据集,时间跨度为12年以上(2013年8月至2025年11月),数据来自GitHub热门页面的Wayback Machine快照。数据集记录了GitHub热门仓库的演变,提供了对软件开发趋势、热门开源项目及其流行模式、社区兴趣以及开发者关注点变化的深入洞察。数据集包含两种配置:'monthly'(每月前25个仓库)和'full'(完整的每日热门数据)。关键统计包括423,098个条目、14,500个独特仓库、128个月的覆盖范围以及89.8%的抓取成功率。数据集还提供了加权评分方法、数据收集细节以及多年来的趋势分析和顶级项目列表。
创建时间:
2025-12-05
原始信息汇总
GitHub Trending Projects (2013-2025) 数据集概述
数据集基本信息
- 数据集名称: GitHub Trending Projects (2013-2025)
- 创建者: ronantakizawa
- 许可协议: mit
- 任务类别: 文本分类、时间序列预测
- 语言: 英语
- 标签: github, trending, repositories, software-engineering, popularity, time-series
- 规模: 100K<n<1M
- 数据条目总数: 423,098 条 GitHub 趋势仓库记录
- 覆盖时间范围: 2013年8月至2025年11月(共128个月)
- 唯一仓库数量: 14,500 个
- 数据来源: 通过 Wayback Machine 对 GitHub 趋势页面进行抓取,抓取成功率为 89.8%
数据集配置
该数据集提供两种配置。
配置一:monthly(默认配置)
-
描述: 每月排名前25的仓库,包含 3,200 条条目。
-
加载方式: python from datasets import load_dataset ds = load_dataset(ronantakizawa/github-top-projects, monthly)
-
数据列:
month(字符串): 月份 (YYYY-MM)rank(整数): 月度排名 (1-25)repository(字符串): 完整仓库名称 (owner/name)repo_owner(字符串): 仓库所有者repo_name(字符串): 仓库名称star_count(整数): 记录的最高星标数fork_count(整数): 记录的最高复刻数ranking_appearances(整数): 当月出现在趋势榜的次数
配置二:full
-
描述: 完整的每日趋势数据,包含 423,098 条条目。
-
加载方式: python from datasets import load_dataset ds = load_dataset(ronantakizawa/github-top-projects, full)
-
数据列:
name(字符串): 仓库名称star_count(整数): 星标数(2020年前可能为空)fork_count(整数): 复刻数(2020年前可能为空)repo_owner(字符串): 仓库所有者/组织rank(整数): 趋势榜位置 (1-25)date(字符串): 快照日期 (YYYY-MM-DD)
月度排名评分方法
月度排名采用加权频率和位置评分系统:
分数 = Σ (25 - 排名 + 1) 对于每次趋势出现
- 排名第1 → 25 分
- 排名第2 → 24 分
- ...
- 排名第25 → 1 分 此方法同时奖励了持续性(频繁出现)和高排名。
关键洞察摘要
历史总榜前十项目 (2013-2025)
- TheAlgorithms/Python - 总分:379
- tensorflow/tensorflow - 总分:322
- jwasham/coding-interview-university - 总分:295
- public-apis/public-apis - 总分:279
- donnemartin/system-design-primer - 总分:249
- EbookFoundation/free-programming-books - 总分:237
- FreeCodeCamp/FreeCodeCamp - 总分:229
- freeCodeCamp/freeCodeCamp - 总分:228
- trekhleb/javascript-algorithms - 总分:228
- kamranahmedse/developer-roadmap - 总分:189
显著模式:教育资源主导历史总榜,前十名中有八个是学习资源。
近期优胜者 (2024-2025)
- 2025-11: google/adk-go
- 2025-10: Stremio/stremio-web
- 2025-09: microsoft/markitdown
- 2025-08: simstudioai/sim
- 2025-07: NanmiCoder/MediaCrawler
- 2024-12: lobehub/lobe-chat
- 2024-11: abi/screenshot-to-code
- 2024-10: TheAlgorithms/Python
技术趋势演变分析
- 2013-2014: Web 框架时代(Bootstrap, Angular.js, jQuery)
- 2015-2017: 框架竞争时代(FreeCodeCamp, TensorFlow, Vue.js)
- 2018-2019: 算法复兴时代(教育性算法仓库)
- 2020-2021: 学习平台主导时代(面试准备、公共API)
- 2022-2023: AI/ML 爆发时代(Stable Diffusion, ChatGPT)
- 2024-2025: 专业化 AI 工具时代(实用 AI 应用)
病毒式现象记录
- 单月最高趋势天数:
CSSEGISandData/COVID-19在 2020年3月 有 356 天。 - 洞察:2020年3月至5月,由于新冠疫情封锁和远程工作转型,趋势活动达到前所未有的水平。
顶级组织与开发者
- 最多产的组织:microsoft(87次出现,46个独特仓库)
- 持续性的个人开发者:jwasham, trekhleb, donnemartin, kamranahmedse, sindresorhus
项目类别分布
- 教育资源:占趋势榜前25的 35%
- 开发工具:占趋势榜前25的 25%
- AI/ML 项目:占趋势榜前25的 20%(在2024-2025年激增)
- 框架:占趋势榜前25的 15%
- 实用工具与精选集:占趋势榜前25的 5%
持久性与病毒性对比
- 持久性领导者(在趋势榜前25中持续时间最长):
TheAlgorithms/Python: 24 个月jwasham/coding-interview-university: 21 个月tensorflow/tensorflow: 20 个月
- 病毒式“昙花一现”:
CSSEGISandData/COVID-19: 1 个月内 356 天,随后消失996icu/996.ICU: 1 个月内 148 天(2019年4月抗议)
- 模式:教育资源具有持续性;新闻/事件相关项目会爆发然后消退。
搜集汇总
数据集介绍

构建方式
在开源软件生态系统的演进分析中,GitHub热门项目数据集通过系统性的历史数据采集方法构建而成。其核心数据源为互联网档案馆(Wayback Machine)中保存的GitHub热门页面历史快照,覆盖时间跨度自2013年8月至2025年11月。研究团队采用Python网络爬虫技术,结合BeautifulSoup库对超过19,000个可用快照进行解析,通过包含指数退避机制的重试逻辑,最终成功提取了17,127个有效快照,数据采集成功率达到89.8%。该过程生成了包含423,098条热门仓库记录的原始数据集,并进一步通过加权频率与位次评分系统,计算出每月排名前25位的项目聚合视图,形成了结构清晰的双配置数据集。
使用方法
针对不同研究场景,该数据集提供了灵活的使用路径。通过Hugging Face Datasets库,研究者可便捷加载‘monthly’或‘full’两种配置:月度配置适用于分析长期趋势与排名模式,完整配置则支持细粒度的日级事件研究。典型应用包括利用时间序列方法追踪特定技术栈(如AI框架)的流行度生命周期,或通过分类模型识别持续热门项目与短期病毒式传播项目的特征差异。在跨领域研究中,该数据可与开发者活动、代码变更等外部数据源结合,深入探究社区关注度与项目实际发展间的关联。其清晰的字段结构,如‘ranking_appearances’(月度出现次数)与加权‘score’,为构建预测模型或可视化分析提供了直接支持,助力于开源生态动力学、技术采纳曲线及社区行为模式的实证探索。
背景与挑战
背景概述
GitHub作为全球领先的软件代码托管平台,其热门项目榜单动态反映了开源社区的技术趋势与开发者兴趣的变迁。GitHub Top Projects数据集由研究人员Ronantakizawa等人构建,覆盖了自2013年8月至2025年11月长达十二年的历史数据,通过系统性地抓取Wayback Machine存档中的GitHub热门页面,汇集了超过42万条仓库条目。该数据集的核心研究问题在于量化分析开源软件项目的流行度演化规律,揭示编程语言、技术领域及社区关注点的长期转移轨迹。它不仅为软件工程领域的趋势预测提供了实证基础,也为理解开源生态系统的动态机制贡献了宝贵的数据资源。
当前挑战
在解决软件工程趋势分析与项目流行度预测这一领域问题时,该数据集面临的主要挑战在于如何准确捕捉和量化项目的短期爆发与长期持续影响力之间的复杂平衡。具体而言,数据构建过程中遭遇了历史网页存档不完整与格式异构的难题,需通过多次重试与指数退避策略来提升抓取成功率。此外,早期数据中星标与分支计数等关键指标的缺失,以及热门排名算法随时间可能发生的隐性变化,均为跨时段的一致性分析带来了显著障碍。这些挑战要求研究者在利用数据进行趋势推断时,必须审慎考虑数据收集的局限性与潜在偏差。
常用场景
经典使用场景
在开源软件生态系统的研究中,GitHub-top-projects数据集为分析技术趋势的演变提供了关键支撑。研究者常利用其跨越十二年的月度与完整时间序列数据,追踪特定编程语言、框架或工具在开发者社区中的流行度波动。例如,通过解析排名与评分机制,能够识别出如TensorFlow在机器学习兴起时期的持续影响力,或如Stable Diffusion在生成式AI爆发阶段的病毒式传播模式,从而揭示技术采纳与更替的宏观规律。
解决学术问题
该数据集有效解决了软件工程与社会计算领域多个核心学术问题。它使得量化开源项目流行度的长期动态成为可能,助力研究者建模技术生命周期,识别从“框架战争”到“AI工具专业化”等时代性转折。同时,数据中蕴含的社区兴趣迁移,如教育类资源长期占据主导的现象,为理解开发者学习行为与知识传播机制提供了实证基础。其精细的时间颗粒度亦支持对突发公共事件(如COVID-19)如何影响开源生态进行深入分析。
实际应用
在实际应用层面,该数据集为技术战略决策与开发者工具优化提供了数据驱动洞察。企业研发部门可依据历史趋势预测新兴技术方向,合理配置资源;开源基金会或社区运营者能识别具有持久影响力的项目模式,以制定有效的培育与推广策略。此外,教育平台和内容创作者可参考热门学习资源(如算法库、面试指南)的演变,设计更贴合市场需求的教学材料与课程体系。
数据集最近研究
最新研究方向
在开源软件工程与开发者行为分析领域,GitHub-top-projects数据集凭借其跨越十余年的趋势仓库追踪能力,已成为探究技术演进与社区动态的关键资源。近期研究聚焦于利用该数据集的时间序列特性,深入分析人工智能工具从实验性探索到专业化应用的转型轨迹。学者们通过挖掘2024至2025年间新兴项目的主题分布,识别出AI金融工具、代码生成及视频处理等垂直领域的热点,揭示了开发者兴趣从通用框架向具体场景解决方案的迁移。同时,结合历史趋势数据,研究进一步探讨了重大社会事件(如新冠疫情)对开源项目流行度的瞬时冲击效应,以及教育类资源所展现的持久影响力,为理解技术采纳周期与社区可持续性提供了实证依据。
以上内容由遇见数据集搜集并总结生成



