Public Git Archive

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/src-d/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含超过26万个GitHub上最受欢迎的仓库，总计超过1.36亿个文件和约280亿行代码，总大小为6TB。

This dataset encompasses over 260,000 of the most popular repositories on GitHub, comprising a total of more than 136 million files and approximately 28 billion lines of code, with an overall size of 6TB.

创建时间：

2018-01-25

原始信息汇总

数据集概述

Public Git Archive

大小: 6TB
描述: 包含260k+ GitHub上顶级收藏的仓库，总计136M+文件和约280亿行代码。

Programming Language Identifiers

大小: 1GB
描述: 从10多种编程语言中提取的约49M个独特标识符。

Code duplicates

大小: 250MB
描述: 包含2k个Java文件和600个Java函数对，由多名程序员标记为相似或不同。

Pull Request review comments

大小: 1.5GB
描述: 自2015年1月至2018年12月，GitHub上的25.3百万条PR审查评论。

Commit messages

大小: 46GB
描述: 截至2019年3月，GitHub上的13亿条提交消息。

Structural commit features

大小: 1.9GB
描述: 来自GitHub上622个Java仓库的160万次提交的结构特征。

DockerHub Metadata

大小: 1.4GB
描述: 2019年6月从DockerHub获取的146万个Docker镜像配置和清单文件。

DockerHub Packages

大小: 15GB
描述: 2019年夏季分析的419,092个Docker镜像，包括原生、Python和Node包列表。

Typos

大小: 1MB
描述: 在GitHub仓库中发现的7,375个源代码标识符名称中的拼写错误。

NuGet Namespaces

大小: 13MB
描述: 从227,839个NuGet包中提取的681,858个.NET命名空间的信息。

搜集汇总

数据集介绍

构建方式

Public Git Archive数据集的构建基于GitHub上260,000多个高收藏量的代码仓库，这些仓库包含了136,000,000多个文件和约280亿行代码。通过系统化的爬取和整理，该数据集涵盖了广泛的开源项目，确保了数据的多样性和代表性。构建过程中，采用了自动化工具和脚本，确保了数据的高效采集和处理，同时保留了代码的原始结构和历史信息。

使用方法

Public Git Archive数据集适用于多种代码分析和机器学习任务。研究者可以通过该数据集进行代码克隆检测、编程语言识别、代码推荐系统等研究。使用时，用户可以下载整个数据集或选择特定的子集进行分析。数据集提供了详细的文档和工具，帮助用户快速上手并进行数据处理和分析。此外，数据集的开源性质也鼓励了社区的参与和贡献，进一步丰富了其应用场景。

背景与挑战

背景概述

Public Git Archive数据集由source{d}团队创建，旨在为源代码分析和机器学习在源代码（ML on Code）领域的研究提供大规模数据支持。该数据集包含了260,000多个GitHub上最受欢迎的代码库，总计6TB的数据，涵盖了136,000,000个文件和约280亿行代码。这一数据集的构建不仅为研究人员提供了丰富的代码资源，还为探索代码结构、编程语言特性以及代码重复性等问题提供了坚实的基础。通过这一数据集，研究人员可以更深入地理解代码的复杂性和多样性，推动机器学习在软件工程领域的应用。

当前挑战

Public Git Archive数据集在构建过程中面临了诸多挑战。首先，数据集的规模巨大，处理和存储6TB的数据对计算资源和存储技术提出了极高的要求。其次，代码库的多样性和复杂性使得数据预处理和特征提取变得异常困难，如何有效地从海量代码中提取有用的信息成为一大挑战。此外，代码库的动态更新特性要求数据集能够持续更新，确保数据的时效性和准确性。最后，如何在保护开发者隐私的前提下，合理利用这些数据进行研究，也是该数据集面临的重要伦理和法律问题。

常用场景

经典使用场景

Public Git Archive 数据集以其庞大的规模和丰富的代码资源，成为源代码分析和机器学习在源代码领域中的经典应用场景。该数据集包含了260,000多个GitHub上最受欢迎的代码仓库，涵盖了136,000,000个文件和约280亿行代码。研究者可以利用这一数据集进行代码克隆检测、代码风格分析、编程语言识别等多种任务，尤其在机器学习模型的训练和验证中，提供了丰富的语料库。

解决学术问题

Public Git Archive 数据集在学术研究中解决了多个关键问题，特别是在代码分析和机器学习领域。通过提供大规模的代码库，研究者能够深入探讨代码的结构、语义和演化规律，从而推动代码克隆检测、代码推荐系统、代码生成模型等方向的研究。此外，该数据集还为跨语言代码分析提供了宝贵的资源，促进了多语言编程环境下的研究进展。

实际应用

在实际应用中，Public Git Archive 数据集被广泛用于软件开发和维护的自动化工具中。例如，代码推荐系统可以利用该数据集中的代码片段，帮助开发者快速找到相似的代码实现；代码克隆检测工具则可以识别重复代码，提升代码质量和维护效率。此外，该数据集还支持企业内部的代码审计和安全分析，确保代码库的合规性和安全性。

数据集最近研究