Aditya78b/codeparrot-java-all

Name: Aditya78b/codeparrot-java-all
Creator: Aditya78b
Published: 2023-08-23 07:56:43
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Aditya78b/codeparrot-java-all

下载链接

链接失效反馈

官方服务：

资源简介：

GitHub Code数据集包含来自GitHub的1.15亿个代码文件，涵盖32种编程语言和60种文件扩展名，总数据量为1TB。数据集是从Google BigQuery上的公共GitHub数据集中创建的。每个数据实例包含代码内容、仓库名称、文件路径、编程语言、许可证和文件大小等信息。数据集主要用于文本生成任务，特别是语言建模。

提供机构：

Aditya78b

原始信息汇总

GitHub Code Dataset

数据集描述

GitHub Code数据集包含来自GitHub的115M个代码文件，涵盖32种编程语言和60种扩展名，总计1TB数据。该数据集源自Google BigQuery上的公共GitHub数据集。

如何使用

GitHub Code数据集非常庞大，建议使用datasets库的流式API进行加载和迭代。以下是加载和迭代数据集的示例代码：

python from datasets import load_dataset

ds = load_dataset("codeparrot/github-code", streaming=True, split="train") print(next(iter(ds)))

输出示例： python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

数据结构

数据实例

python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

数据字段

字段	类型	描述
code	string	源文件内容
repo_name	string	GitHub仓库名称
path	string	文件在GitHub仓库中的路径
language	string	根据扩展名推断的编程语言
license	string	GitHub仓库的许可证
size	int	源文件大小（字节）

数据分割

数据集仅包含一个训练集（train split）。

语言

数据集包含30种编程语言和超过60种扩展名。

许可证

每个示例都标注了相关仓库的许可证，共有15种许可证。

数据集统计

数据集包含115M个文件，所有源代码文件的总大小为873GB。以下是按语言划分的统计数据：

	语言	文件数量	大小（GB）
0	Java	19548190	107.70
1	C	14143113	183.83
2	JavaScript	11839883	87.82
3	HTML	11178557	118.12
4	PHP	11177610	61.41
5	Markdown	8464626	23.09
6	C++	7380520	87.73
7	Python	7226626	52.03
8	C#	6811652	36.83
9	Ruby	4473331	10.95
10	GO	2265436	19.28
11	TypeScript	1940406	24.59
12	CSS	1734406	22.67
13	Shell	1385648	3.01
14	Scala	835755	3.87
15	Makefile	679430	2.92
16	SQL	656671	5.67
17	Lua	578554	2.81
18	Perl	497949	4.70
19	Dockerfile	366505	0.71
20	Haskell	340623	1.85
21	Rust	322431	2.68
22	TeX	251015	2.15
23	Batchfile	236945	0.70
24	CMake	175282	0.54
25	Visual Basic	155652	1.91
26	FORTRAN	142038	1.62
27	PowerShell	136846	0.69
28	Assembly	82905	0.78
29	Julia	58317	0.29

数据集创建

数据集创建分为两个步骤：

从BigQuery上的GitHub数据集中检索具有上述列表中扩展名的文件。
删除行长度超过1000个字符的文件和重复文件（忽略空白字符的完全重复）。

使用数据的注意事项

数据集包含来自广泛仓库的源代码，可能包含有害或有偏见的代码以及敏感信息，如密码或用户名。

版本发布

可以使用revision参数加载数据集的任何旧版本：

python ds = load_dataset("codeparrot/github-code", revision="v1.0")

v1.0

数据集的初始发布
查询执行于2022年2月14日12:03:16 UTC+1

v1.1

修复了缺失的Scala/TypeScript
修复了Python hash不一致的重复问题
查询执行于2022年3月16日18:23:39 UTC+1

5,000+

优质数据集

54 个

任务类型

进入经典数据集