Harshpreet-singh1/datasetfinetune

Name: Harshpreet-singh1/datasetfinetune
Creator: Harshpreet-singh1
Published: 2023-08-23 06:31:56
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Harshpreet-singh1/datasetfinetune

下载链接

链接失效反馈

官方服务：

资源简介：

GitHub Code数据集包含来自GitHub的115M个代码文件，涵盖32种编程语言和60种文件扩展名，总数据量为1TB。数据集从Google BigQuery的GitHub数据集中创建，并经过预处理以去除过长的行和重复文件。数据集中的每个实例包含代码、仓库名称、文件路径、编程语言、许可证和文件大小等信息。

The GitHub Code Dataset contains 115 million code files sourced from GitHub, covering 32 programming languages and 60 file extensions, with a total data size of 1 TB. It is constructed from the GitHub dataset hosted on Google BigQuery, and has undergone preprocessing to remove excessively long lines and duplicate files. Each instance in the dataset includes information such as code, repository name, file path, programming language, license, and file size.

提供机构：

Harshpreet-singh1

原始信息汇总

GitHub Code Dataset 概述

数据集描述

GitHub Code 数据集包含来自 GitHub 的 115M 个代码文件，涵盖 32 种编程语言和 60 种扩展名，总计 1TB 数据。该数据集从 Google BigQuery 上的公共 GitHub 数据集创建。

如何使用

数据集非常庞大，建议使用 datasets 库的流式 API 进行加载和迭代。以下是加载和迭代数据集的示例代码：

python from datasets import load_dataset

ds = load_dataset("codeparrot/github-code", streaming=True, split="train") print(next(iter(ds)))

输出示例： python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

还可以根据编程语言和许可证进行过滤：

python ds = load_dataset("codeparrot/github-code", streaming=True, split="train", languages=["Dockerfile"]) print(next(iter(ds))["code"])

数据结构

数据实例

python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

数据字段

字段	类型	描述
code	string	源文件内容
repo_name	string	GitHub 仓库名称
path	string	文件在 GitHub 仓库中的路径
language	string	根据扩展名推断的编程语言
license	string	GitHub 仓库的许可证
size	int	源文件大小（字节）

数据分割

数据集仅包含训练集（train split）。

语言

数据集包含 30 种编程语言和超过 60 种扩展名。

许可证

每个示例都标注了相关仓库的许可证，共有 15 种许可证。

数据集统计

数据集包含 115M 个文件，源代码文件总大小为 873 GB。以下是按语言划分的统计数据：

	语言	文件数	大小 (GB)
0	Java	19548190	107.70
1	C	14143113	183.83
2	JavaScript	11839883	87.82
3	HTML	11178557	118.12
4	PHP	11177610	61.41
5	Markdown	8464626	23.09
6	C++	7380520	87.73
7	Python	7226626	52.03
8	C#	6811652	36.83
9	Ruby	4473331	10.95
10	GO	2265436	19.28
11	TypeScript	1940406	24.59
12	CSS	1734406	22.67
13	Shell	1385648	3.01
14	Scala	835755	3.87
15	Makefile	679430	2.92
16	SQL	656671	5.67
17	Lua	578554	2.81
18	Perl	497949	4.70
19	Dockerfile	366505	0.71
20	Haskell	340623	1.85
21	Rust	322431	2.68
22	TeX	251015	2.15
23	Batchfile	236945	0.70
24	CMake	175282	0.54
25	Visual Basic	155652	1.91
26	FORTRAN	142038	1.62
27	PowerShell	136846	0.69
28	Assembly	82905	0.78
29	Julia	58317	0.29

数据集创建

数据集创建分为两个步骤：

从 BigQuery 上的 GitHub 数据集中检索具有指定扩展名的文件。
删除行长度超过 1000 字符和重复的文件（忽略空白字符的完全重复）。

使用数据的注意事项

数据集包含来自广泛仓库的源代码，可能包含有害或有偏见的代码以及敏感信息（如密码或用户名）。

版本

可以使用 revision 参数加载数据集的任何旧版本：

Python ds = load_dataset("codeparrot/github-code", revision="v1.0")

v1.0

初始版本
查询执行于 Feb 14, 2022, 12:03:16 PM UTC+1

v1.1

修复 Scala/TypeScript 缺失问题
修复 Python hash 不一致导致的重复问题
查询执行于 Mar 16, 2022, 6:23:39 PM UTC+1

5,000+

优质数据集

54 个

任务类型

进入经典数据集