Public Git Archive

github2020-09-07 更新2024-05-31 收录

下载链接：

https://github.com/neomatrix369/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

260k+ GitHub上顶级收藏的仓库，包含136M+文件和约280亿行代码。

260k+ top-starred repositories on GitHub, containing 136M+ files and approximately 28 billion lines of code.

创建时间：

2020-06-21

原始信息汇总

数据集概述

1. Public Git Archive

大小: 6TB
描述: 包含260k+ GitHub上最受欢迎的仓库，总计136M+文件和约280亿行代码。

2. Programming Language Identifiers

大小: 1GB
描述: 从10多种编程语言中提取的约4900万个唯一标识符。

3. Code duplicates

大小: 250MB
描述: 包含2000个Java文件和600个Java函数对，由多个程序员标记为相似或不同。

4. Pull Request review comments

大小: 1.5GB
描述: 自2015年1月至2018年12月，GitHub上的2530万条PR审查评论。

5. Commit messages

大小: 46GB
描述: 截至2019年3月，GitHub上的13亿条提交信息。

6. Structural commit features

大小: 1.9GB
描述: 来自GitHub上622个Java仓库的160万次提交的结构特征。

7. DockerHub Metadata

大小: 1.4GB
描述: 2019年6月从DockerHub获取的146万个Docker镜像配置和清单文件。

8. DockerHub Packages

大小: 15GB
描述: 2019年夏季分析的419092个Docker镜像，包括原生、Python和Node包。

9. Typos

大小: 1MB
描述: 在GitHub仓库中发现的7375个源代码标识符名称的拼写错误。

10. NuGet Namespaces

大小: 13MB
描述: 从227839个NuGet包中提取的681858个.NET命名空间信息。

搜集汇总

数据集介绍

构建方式

Public Git Archive数据集通过收集GitHub上超过26万个高收藏量的代码仓库构建而成，涵盖了136百万个文件和约280亿行代码。该数据集的构建过程依赖于自动化脚本和工具，确保数据的完整性和可重复性。通过这种方式，数据集不仅提供了丰富的源代码资源，还为源代码分析和机器学习研究提供了坚实的基础。

使用方法

使用Public Git Archive数据集时，研究人员可以通过提供的工具和脚本快速获取和处理数据。数据集支持多种分析任务，如代码克隆检测、编程语言特性研究以及机器学习模型的训练。通过结合相关的学术论文和工具，用户可以深入挖掘数据集中的信息，推动源代码分析领域的前沿研究。

背景与挑战

背景概述

Public Git Archive数据集由source{d}团队创建，旨在为源代码分析和机器学习在源代码上的应用提供大规模数据支持。该数据集收录了超过260,000个GitHub上最受欢迎的开源项目，包含1.36亿个文件和约280亿行代码。自发布以来，该数据集已成为研究源代码分析、代码克隆检测、编程语言识别等领域的重要资源。其规模之大、覆盖面之广，为学术界和工业界提供了丰富的研究素材，推动了机器学习在代码理解与生成方面的进展。

当前挑战

Public Git Archive数据集在构建和应用过程中面临多重挑战。首先，数据规模庞大，6TB的数据量对存储、处理和传输提出了极高的要求，尤其是在数据清洗和预处理阶段，如何高效地提取有用信息成为关键问题。其次，数据来源的多样性导致代码风格、编程语言和项目结构的复杂性增加，这对模型的泛化能力提出了更高要求。此外，数据隐私和版权问题也需谨慎处理，确保数据集的合法性和合规性。最后，如何从海量数据中挖掘出有意义的模式，并将其应用于实际场景，仍是一个亟待解决的难题。

常用场景

经典使用场景

Public Git Archive数据集广泛应用于源代码分析和机器学习领域，尤其是在处理大规模代码库时。研究者们利用该数据集中的260,000多个GitHub仓库，包含超过136百万个文件和约280亿行代码，进行代码质量评估、代码克隆检测以及编程风格分析等任务。这些任务不仅帮助理解代码的演化过程，还为自动化代码生成和优化提供了宝贵的数据支持。

解决学术问题

Public Git Archive数据集解决了源代码分析中的多个关键学术问题。首先，它为代码克隆检测提供了丰富的真实世界数据，使得研究者能够开发出更精确的检测算法。其次，该数据集支持编程语言特性的研究，帮助理解不同编程语言的语法和语义差异。此外，它还促进了代码质量评估和缺陷预测的研究，为软件工程领域的自动化工具开发提供了坚实的基础。

实际应用

在实际应用中，Public Git Archive数据集被广泛应用于企业级软件开发工具的构建。例如，许多公司利用该数据集训练机器学习模型，以自动化代码审查和缺陷检测。此外，该数据集还被用于开发代码推荐系统，帮助开发者在编写代码时获得智能提示。这些应用不仅提高了开发效率，还显著降低了软件维护的成本。

数据集最近研究