KoalaAI/GitHub-CC0

Name: KoalaAI/GitHub-CC0
Creator: KoalaAI
Published: 2023-08-21 14:49:52
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/KoalaAI/GitHub-CC0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含9000个公共领域（cc0或unlicense）许可的GitHub仓库的元数据和源代码，这些仓库拥有超过25颗星。数据集通过抓取GitHub API并下载仓库创建，适用于多种自然语言处理和软件工程任务，如代码摘要、代码生成、代码搜索、代码分析等。数据集大小为2.4 GB（压缩），涵盖多种编程语言，包括Python、JavaScript、Java、C#、C++、Ruby、PHP、Go、Swift和Rust。

This dataset includes metadata and source code from 9000 public domain (CC0 or Unlicense) licensed GitHub repositories, each boasting over 25 stars. The dataset is constructed by scraping the GitHub API and downloading the corresponding repositories, and is applicable to a wide range of natural language processing (NLP) and software engineering tasks, such as code summarization, code generation, code search, code analysis, and more. The compressed size of the dataset is 2.4 GB, and it covers various programming languages including Python, JavaScript, Java, C#, C++, Ruby, PHP, Go, Swift, and Rust.

提供机构：

KoalaAI

原始信息汇总

Public Domain GitHub Repositories Dataset

数据集概述

包含内容： 9,000个公共领域（cc0或unlicense）许可的GitHub仓库的元数据和源代码。
选择标准： 仓库需拥有超过25颗星且大小不超过100MB。
创建方法： 通过抓取GitHub API并下载符合条件的仓库创建。
应用场景： 适用于自然语言处理和软件工程任务，如代码摘要、代码生成、代码搜索、代码分析等。

数据集详情

仓库数量： 9,000
数据大小： 2.4 GB（压缩）
主要编程语言： Python, JavaScript, Java, C#, C++, Ruby, PHP, Go, Swift, Rust
许可： 公共领域（cc0或unlicense）

数据集许可

该数据集及其原始仓库均采用公共领域（cc0或unlicense）许可，可无限制地用于任何目的。

数据集复现

该数据集是通过修改EleutherAI的"github-downloader"工具创建的。复现步骤可在我们的GitHub页面上找到。

搜集汇总

数据集介绍

构建方式

在开源软件生态日益繁荣的背景下，构建高质量、可自由使用的代码数据集对于推动自然语言处理与软件工程研究至关重要。本数据集通过系统性地筛选GitHub平台，精心采集了9,000个采用公共领域许可（如CC0或Unlicense）且星标数超过25的代码仓库。技术实现上，研究团队基于EleutherAI的“github-downloader”工具进行定制化修改，通过GitHub API进行自动化爬取，并确保每个仓库的压缩体积控制在100MB以内，最终形成了总计约2.4GB的规范化数据集合。

特点

作为专注于公共领域代码资源的语料库，本数据集的核心特征在于其许可的极度开放性，所有内容均遵循CC0或Unlicense协议，为用户提供了无法律限制的研究与应用自由。数据覆盖了Python、JavaScript、Java、C#、C++、Ruby、PHP、Go、Swift及Rust等十种主流编程语言，呈现出良好的语言多样性。其规模经过精心设计，在保证数据质量与代表性的同时，也兼顾了实际处理与分发的便利性，为代码智能领域的模型训练与评估提供了坚实的资源基础。

使用方法

该数据集为代码相关的智能任务提供了丰富的原材料，适用于广泛的实证研究与应用开发。研究者可将其用于代码摘要生成、代码补全与生成、跨语言代码检索以及软件度量分析等多种自然语言处理与软件工程任务。在使用时，用户可直接加载数据集中的元数据与源代码文件，依据具体任务需求进行预处理、特征提取或模型微调。由于其开放的许可协议，衍生成果亦可无顾虑地融入商业产品或开源项目，显著促进了学术与工业界的协同创新。

背景与挑战

背景概述

在开源软件与人工智能交叉研究领域，公开可用的代码数据集对于推动代码智能模型的发展至关重要。KoalaAI/GitHub-CC0数据集由KoalaAI研究团队于近年构建，旨在汇集高质量、无版权限制的GitHub仓库资源。该数据集精选了9,000个采用CC0或Unlicense许可证且星标数超过25的仓库，覆盖Python、JavaScript、Java等多种编程语言，核心研究问题聚焦于为代码生成、摘要、搜索等自然语言处理与软件工程任务提供纯净、合法的训练数据。其公开领域的特性显著降低了法律风险，对促进代码大模型的研究与应用产生了积极影响。

当前挑战

该数据集致力于解决代码智能领域中训练数据版权模糊与质量参差不齐的挑战，通过严格筛选许可证确保法律安全性，但如何从海量仓库中精准识别真正高质量的代码范例仍存难度。在构建过程中，团队面临双重挑战：一是需高效处理GitHub API的速率限制与仓库大小约束（如100MB上限），以平衡数据规模与采集可行性；二是需设计自动化流程验证许可证合规性，并维持多语言代码的均衡代表性，避免数据偏差影响下游任务性能。

常用场景

经典使用场景

在软件工程与自然语言处理的交叉领域，KoalaAI/GitHub-CC0数据集为代码智能研究提供了丰富的公共领域资源。该数据集汇集了9000个高星级的开源仓库，覆盖Python、JavaScript等多种编程语言，常被用于代码摘要、代码生成等任务。研究者利用其无版权限制的特性，能够自由训练模型以理解代码语义，探索程序逻辑与自然语言之间的映射关系，从而推动自动化编程工具的发展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，例如基于代码生成的预训练模型优化、跨语言代码检索系统的构建，以及程序合成技术的改进。这些工作常引用数据集的无版权优势，探索代码表征学习的新方法，并在软件工程顶级会议上发表成果。它们进一步丰富了代码智能领域的知识体系，为后续研究提供了可复现的基准与灵感来源。

数据集最近研究