five

Aditya78b/codeparrot-java-all

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Aditya78b/codeparrot-java-all
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Code数据集包含来自GitHub的1.15亿个代码文件,涵盖32种编程语言和60种文件扩展名,总数据量为1TB。数据集是从Google BigQuery上的公共GitHub数据集中创建的。每个数据实例包含代码内容、仓库名称、文件路径、编程语言、许可证和文件大小等信息。数据集主要用于文本生成任务,特别是语言建模。
提供机构:
Aditya78b
原始信息汇总

GitHub Code Dataset

数据集描述

GitHub Code数据集包含来自GitHub的115M个代码文件,涵盖32种编程语言和60种扩展名,总计1TB数据。该数据集源自Google BigQuery上的公共GitHub数据集。

如何使用

GitHub Code数据集非常庞大,建议使用datasets库的流式API进行加载和迭代。以下是加载和迭代数据集的示例代码:

python from datasets import load_dataset

ds = load_dataset("codeparrot/github-code", streaming=True, split="train") print(next(iter(ds)))

输出示例: python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

数据结构

数据实例

python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }

数据字段

字段 类型 描述
code string 源文件内容
repo_name string GitHub仓库名称
path string 文件在GitHub仓库中的路径
language string 根据扩展名推断的编程语言
license string GitHub仓库的许可证
size int 源文件大小(字节)

数据分割

数据集仅包含一个训练集(train split)。

语言

数据集包含30种编程语言和超过60种扩展名。

许可证

每个示例都标注了相关仓库的许可证,共有15种许可证。

数据集统计

数据集包含115M个文件,所有源代码文件的总大小为873GB。以下是按语言划分的统计数据:

语言 文件数量 大小(GB)
0 Java 19548190 107.70
1 C 14143113 183.83
2 JavaScript 11839883 87.82
3 HTML 11178557 118.12
4 PHP 11177610 61.41
5 Markdown 8464626 23.09
6 C++ 7380520 87.73
7 Python 7226626 52.03
8 C# 6811652 36.83
9 Ruby 4473331 10.95
10 GO 2265436 19.28
11 TypeScript 1940406 24.59
12 CSS 1734406 22.67
13 Shell 1385648 3.01
14 Scala 835755 3.87
15 Makefile 679430 2.92
16 SQL 656671 5.67
17 Lua 578554 2.81
18 Perl 497949 4.70
19 Dockerfile 366505 0.71
20 Haskell 340623 1.85
21 Rust 322431 2.68
22 TeX 251015 2.15
23 Batchfile 236945 0.70
24 CMake 175282 0.54
25 Visual Basic 155652 1.91
26 FORTRAN 142038 1.62
27 PowerShell 136846 0.69
28 Assembly 82905 0.78
29 Julia 58317 0.29

数据集创建

数据集创建分为两个步骤:

  1. 从BigQuery上的GitHub数据集中检索具有上述列表中扩展名的文件。
  2. 删除行长度超过1000个字符的文件和重复文件(忽略空白字符的完全重复)。

使用数据的注意事项

数据集包含来自广泛仓库的源代码,可能包含有害或有偏见的代码以及敏感信息,如密码或用户名。

版本发布

可以使用revision参数加载数据集的任何旧版本:

python ds = load_dataset("codeparrot/github-code", revision="v1.0")

v1.0

  • 数据集的初始发布
  • 查询执行于2022年2月14日12:03:16 UTC+1

v1.1

  • 修复了缺失的Scala/TypeScript
  • 修复了Python hash不一致的重复问题
  • 查询执行于2022年3月16日18:23:39 UTC+1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作