CodedotAI/code_clippy_github
收藏Hugging Face2022-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CodedotAI/code_clippy_github
下载链接
链接失效反馈官方服务:
资源简介:
Code Clippy数据集包含来自GitHub的22种编程语言的公共代码库,总计约16 TB的未压缩数据。该数据集是从Google BigQuery上的公共GitHub数据集中创建的。数据集的结构包括代码文本、仓库名称、文件路径、编程语言、许可证和文件大小等字段。数据集的使用需要考虑社会影响、经济影响、安全影响和法律影响。
提供机构:
CodedotAI
原始信息汇总
数据集概述
数据集名称
- Code Clippy Github Dataset
数据集描述
- 包含来自GitHub的多种公共代码库,涵盖22种编程语言和23种扩展,未压缩数据总量约16 TB。
- 数据源自Google BigQuery上的公共GitHub数据集。
数据结构
数据实例
python { code_text: " a = mc^2", repo_name: NotEinstein, file_path: root/users/einstein.py, language: Python, license: isc, size: 2 }
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
| code_text | string | 代码文件中的源代码字符串 |
| repo_name | string | GitHub仓库名称 |
| file_path | string | 仓库内代码文件的路径 |
| language | string | 文件扩展推断出的编程语言 |
| license | string | GitHub仓库的许可证 |
| size | int | 源文件的大小(字节) |
数据分割
- 仅提供训练分割。
编程语言
- 包含22种编程语言,具体包括:C, C#, C++, CSS, Dart, GO, HTML, Java, JavaScript, Jupyter Notebooks (Python), Kotlin, Lisp, Matlab, PHP, Perl, Python, R, Ruby, Rust, SQL, Shell, Swift, TypeScript。
许可证
- 数据集中的每个示例均标注了关联仓库的许可证,共15种,如:mit, apache-2.0, gpl-2.0等。
数据集统计
- 数据集未压缩大小约为18 TB。
数据集创建
- 数据集通过从BigQuery的GitHub数据集中检索特定扩展的文件创建。
- 当前正在进行额外的过滤和清理工作。
使用注意事项
- 数据可能包含个人和敏感信息,如秘密密钥、密码等。
- 使用大型语言模型训练此数据集可能带来技术、经济和法律方面的影响。
版本信息
- 查询执行日期:2022年2月1日,12:15:59 AM EST。



