five

Harshpreet-singh1/datasetfinetune

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Harshpreet-singh1/datasetfinetune
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Code数据集包含来自GitHub的115M个代码文件,涵盖32种编程语言和60种文件扩展名,总数据量为1TB。数据集从Google BigQuery的GitHub数据集中创建,并经过预处理以去除过长的行和重复文件。数据集中的每个实例包含代码、仓库名称、文件路径、编程语言、许可证和文件大小等信息。

The GitHub Code Dataset contains 115 million code files sourced from GitHub, covering 32 programming languages and 60 file extensions, with a total data size of 1 TB. It is constructed from the GitHub dataset hosted on Google BigQuery, and has undergone preprocessing to remove excessively long lines and duplicate files. Each instance in the dataset includes information such as code, repository name, file path, programming language, license, and file size.
提供机构:
Harshpreet-singh1
原始信息汇总

GitHub Code Dataset 概述

数据集描述

GitHub Code 数据集包含来自 GitHub 的 115M 个代码文件,涵盖 32 种编程语言和 60 种扩展名,总计 1TB 数据。该数据集从 Google BigQuery 上的公共 GitHub 数据集创建。

如何使用

数据集非常庞大,建议使用 datasets 库的流式 API 进行加载和迭代。以下是加载和迭代数据集的示例代码:

python from datasets import load_dataset

ds = load_dataset("codeparrot/github-code", streaming=True, split="train") print(next(iter(ds)))

输出示例: python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

还可以根据编程语言和许可证进行过滤:

python ds = load_dataset("codeparrot/github-code", streaming=True, split="train", languages=["Dockerfile"]) print(next(iter(ds))["code"])

数据结构

数据实例

python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

数据字段

字段 类型 描述
code string 源文件内容
repo_name string GitHub 仓库名称
path string 文件在 GitHub 仓库中的路径
language string 根据扩展名推断的编程语言
license string GitHub 仓库的许可证
size int 源文件大小(字节)

数据分割

数据集仅包含训练集(train split)。

语言

数据集包含 30 种编程语言和超过 60 种扩展名。

许可证

每个示例都标注了相关仓库的许可证,共有 15 种许可证。

数据集统计

数据集包含 115M 个文件,源代码文件总大小为 873 GB。以下是按语言划分的统计数据:

语言 文件数 大小 (GB)
0 Java 19548190 107.70
1 C 14143113 183.83
2 JavaScript 11839883 87.82
3 HTML 11178557 118.12
4 PHP 11177610 61.41
5 Markdown 8464626 23.09
6 C++ 7380520 87.73
7 Python 7226626 52.03
8 C# 6811652 36.83
9 Ruby 4473331 10.95
10 GO 2265436 19.28
11 TypeScript 1940406 24.59
12 CSS 1734406 22.67
13 Shell 1385648 3.01
14 Scala 835755 3.87
15 Makefile 679430 2.92
16 SQL 656671 5.67
17 Lua 578554 2.81
18 Perl 497949 4.70
19 Dockerfile 366505 0.71
20 Haskell 340623 1.85
21 Rust 322431 2.68
22 TeX 251015 2.15
23 Batchfile 236945 0.70
24 CMake 175282 0.54
25 Visual Basic 155652 1.91
26 FORTRAN 142038 1.62
27 PowerShell 136846 0.69
28 Assembly 82905 0.78
29 Julia 58317 0.29

数据集创建

数据集创建分为两个步骤:

  1. 从 BigQuery 上的 GitHub 数据集中检索具有指定扩展名的文件。
  2. 删除行长度超过 1000 字符和重复的文件(忽略空白字符的完全重复)。

使用数据的注意事项

数据集包含来自广泛仓库的源代码,可能包含有害或有偏见的代码以及敏感信息(如密码或用户名)。

版本

可以使用 revision 参数加载数据集的任何旧版本:

Python ds = load_dataset("codeparrot/github-code", revision="v1.0")

v1.0

  • 初始版本
  • 查询执行于 Feb 14, 2022, 12:03:16 PM UTC+1

v1.1

  • 修复 Scala/TypeScript 缺失问题
  • 修复 Python hash 不一致导致的重复问题
  • 查询执行于 Mar 16, 2022, 6:23:39 PM UTC+1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作