Aditya78b/codeparrot-java-all
收藏GitHub Code Dataset
数据集描述
GitHub Code数据集包含来自GitHub的115M个代码文件,涵盖32种编程语言和60种扩展名,总计1TB数据。该数据集源自Google BigQuery上的公共GitHub数据集。
如何使用
GitHub Code数据集非常庞大,建议使用datasets库的流式API进行加载和迭代。以下是加载和迭代数据集的示例代码:
python from datasets import load_dataset
ds = load_dataset("codeparrot/github-code", streaming=True, split="train") print(next(iter(ds)))
输出示例: python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }
数据结构
数据实例
python { code: "import mod189 from ./mod189; var value=mod189+1; export default value; ", repo_name: MirekSz/webpack-es6-ts, path: app/mods/mod190.js, language: JavaScript, license: isc, size: 73 }
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
| code | string | 源文件内容 |
| repo_name | string | GitHub仓库名称 |
| path | string | 文件在GitHub仓库中的路径 |
| language | string | 根据扩展名推断的编程语言 |
| license | string | GitHub仓库的许可证 |
| size | int | 源文件大小(字节) |
数据分割
数据集仅包含一个训练集(train split)。
语言
数据集包含30种编程语言和超过60种扩展名。
许可证
每个示例都标注了相关仓库的许可证,共有15种许可证。
数据集统计
数据集包含115M个文件,所有源代码文件的总大小为873GB。以下是按语言划分的统计数据:
| 语言 | 文件数量 | 大小(GB) | |
|---|---|---|---|
| 0 | Java | 19548190 | 107.70 |
| 1 | C | 14143113 | 183.83 |
| 2 | JavaScript | 11839883 | 87.82 |
| 3 | HTML | 11178557 | 118.12 |
| 4 | PHP | 11177610 | 61.41 |
| 5 | Markdown | 8464626 | 23.09 |
| 6 | C++ | 7380520 | 87.73 |
| 7 | Python | 7226626 | 52.03 |
| 8 | C# | 6811652 | 36.83 |
| 9 | Ruby | 4473331 | 10.95 |
| 10 | GO | 2265436 | 19.28 |
| 11 | TypeScript | 1940406 | 24.59 |
| 12 | CSS | 1734406 | 22.67 |
| 13 | Shell | 1385648 | 3.01 |
| 14 | Scala | 835755 | 3.87 |
| 15 | Makefile | 679430 | 2.92 |
| 16 | SQL | 656671 | 5.67 |
| 17 | Lua | 578554 | 2.81 |
| 18 | Perl | 497949 | 4.70 |
| 19 | Dockerfile | 366505 | 0.71 |
| 20 | Haskell | 340623 | 1.85 |
| 21 | Rust | 322431 | 2.68 |
| 22 | TeX | 251015 | 2.15 |
| 23 | Batchfile | 236945 | 0.70 |
| 24 | CMake | 175282 | 0.54 |
| 25 | Visual Basic | 155652 | 1.91 |
| 26 | FORTRAN | 142038 | 1.62 |
| 27 | PowerShell | 136846 | 0.69 |
| 28 | Assembly | 82905 | 0.78 |
| 29 | Julia | 58317 | 0.29 |
数据集创建
数据集创建分为两个步骤:
- 从BigQuery上的GitHub数据集中检索具有上述列表中扩展名的文件。
- 删除行长度超过1000个字符的文件和重复文件(忽略空白字符的完全重复)。
使用数据的注意事项
数据集包含来自广泛仓库的源代码,可能包含有害或有偏见的代码以及敏感信息,如密码或用户名。
版本发布
可以使用revision参数加载数据集的任何旧版本:
python ds = load_dataset("codeparrot/github-code", revision="v1.0")
v1.0
- 数据集的初始发布
- 查询执行于2022年2月14日12:03:16 UTC+1
v1.1
- 修复了缺失的Scala/TypeScript
- 修复了Python
hash不一致的重复问题 - 查询执行于2022年3月16日18:23:39 UTC+1



