Public Git Archive
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/src-d/datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含超过26万个GitHub上最受欢迎的仓库,总计超过1.36亿个文件和约280亿行代码,总大小为6TB。
This dataset encompasses over 260,000 of the most popular repositories on GitHub, comprising a total of more than 136 million files and approximately 28 billion lines of code, with an overall size of 6TB.
创建时间:
2018-01-25
原始信息汇总
数据集概述
Public Git Archive
- 大小: 6TB
- 描述: 包含260k+ GitHub上顶级收藏的仓库,总计136M+文件和约280亿行代码。
Programming Language Identifiers
- 大小: 1GB
- 描述: 从10多种编程语言中提取的约49M个独特标识符。
Code duplicates
- 大小: 250MB
- 描述: 包含2k个Java文件和600个Java函数对,由多名程序员标记为相似或不同。
Pull Request review comments
- 大小: 1.5GB
- 描述: 自2015年1月至2018年12月,GitHub上的25.3百万条PR审查评论。
Commit messages
- 大小: 46GB
- 描述: 截至2019年3月,GitHub上的13亿条提交消息。
Structural commit features
- 大小: 1.9GB
- 描述: 来自GitHub上622个Java仓库的160万次提交的结构特征。
DockerHub Metadata
- 大小: 1.4GB
- 描述: 2019年6月从DockerHub获取的146万个Docker镜像配置和清单文件。
DockerHub Packages
- 大小: 15GB
- 描述: 2019年夏季分析的419,092个Docker镜像,包括原生、Python和Node包列表。
Typos
- 大小: 1MB
- 描述: 在GitHub仓库中发现的7,375个源代码标识符名称中的拼写错误。
NuGet Namespaces
- 大小: 13MB
- 描述: 从227,839个NuGet包中提取的681,858个.NET命名空间的信息。
搜集汇总
数据集介绍

构建方式
Public Git Archive数据集的构建基于GitHub上260,000多个高收藏量的代码仓库,这些仓库包含了136,000,000多个文件和约280亿行代码。通过系统化的爬取和整理,该数据集涵盖了广泛的开源项目,确保了数据的多样性和代表性。构建过程中,采用了自动化工具和脚本,确保了数据的高效采集和处理,同时保留了代码的原始结构和历史信息。
使用方法
Public Git Archive数据集适用于多种代码分析和机器学习任务。研究者可以通过该数据集进行代码克隆检测、编程语言识别、代码推荐系统等研究。使用时,用户可以下载整个数据集或选择特定的子集进行分析。数据集提供了详细的文档和工具,帮助用户快速上手并进行数据处理和分析。此外,数据集的开源性质也鼓励了社区的参与和贡献,进一步丰富了其应用场景。
背景与挑战
背景概述
Public Git Archive数据集由source{d}团队创建,旨在为源代码分析和机器学习在源代码(ML on Code)领域的研究提供大规模数据支持。该数据集包含了260,000多个GitHub上最受欢迎的代码库,总计6TB的数据,涵盖了136,000,000个文件和约280亿行代码。这一数据集的构建不仅为研究人员提供了丰富的代码资源,还为探索代码结构、编程语言特性以及代码重复性等问题提供了坚实的基础。通过这一数据集,研究人员可以更深入地理解代码的复杂性和多样性,推动机器学习在软件工程领域的应用。
当前挑战
Public Git Archive数据集在构建过程中面临了诸多挑战。首先,数据集的规模巨大,处理和存储6TB的数据对计算资源和存储技术提出了极高的要求。其次,代码库的多样性和复杂性使得数据预处理和特征提取变得异常困难,如何有效地从海量代码中提取有用的信息成为一大挑战。此外,代码库的动态更新特性要求数据集能够持续更新,确保数据的时效性和准确性。最后,如何在保护开发者隐私的前提下,合理利用这些数据进行研究,也是该数据集面临的重要伦理和法律问题。
常用场景
经典使用场景
Public Git Archive 数据集以其庞大的规模和丰富的代码资源,成为源代码分析和机器学习在源代码领域中的经典应用场景。该数据集包含了260,000多个GitHub上最受欢迎的代码仓库,涵盖了136,000,000个文件和约280亿行代码。研究者可以利用这一数据集进行代码克隆检测、代码风格分析、编程语言识别等多种任务,尤其在机器学习模型的训练和验证中,提供了丰富的语料库。
解决学术问题
Public Git Archive 数据集在学术研究中解决了多个关键问题,特别是在代码分析和机器学习领域。通过提供大规模的代码库,研究者能够深入探讨代码的结构、语义和演化规律,从而推动代码克隆检测、代码推荐系统、代码生成模型等方向的研究。此外,该数据集还为跨语言代码分析提供了宝贵的资源,促进了多语言编程环境下的研究进展。
实际应用
在实际应用中,Public Git Archive 数据集被广泛用于软件开发和维护的自动化工具中。例如,代码推荐系统可以利用该数据集中的代码片段,帮助开发者快速找到相似的代码实现;代码克隆检测工具则可以识别重复代码,提升代码质量和维护效率。此外,该数据集还支持企业内部的代码审计和安全分析,确保代码库的合规性和安全性。
数据集最近研究
最新研究方向
在软件工程与机器学习交叉领域,Public Git Archive数据集因其庞大的代码库规模和多样性,成为研究代码分析与机器学习在源代码应用的前沿平台。该数据集不仅支持代码相似性检测、编程语言识别等基础研究,还为自动化代码审查、代码生成模型等高级应用提供了丰富的实验数据。近年来,随着深度学习技术在自然语言处理领域的突破,研究人员开始探索如何将这些技术应用于源代码的语义理解与生成,推动了代码补全、错误检测等智能化开发工具的发展。此外,该数据集还为开源社区的协作模式研究提供了独特视角,助力于理解开发者行为与代码质量之间的关系。
以上内容由遇见数据集搜集并总结生成



