five

CodedotAI/code_clippy_github

收藏
Hugging Face2022-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CodedotAI/code_clippy_github
下载链接
链接失效反馈
官方服务:
资源简介:
Code Clippy数据集包含来自GitHub的22种编程语言的公共代码库,总计约16 TB的未压缩数据。该数据集是从Google BigQuery上的公共GitHub数据集中创建的。数据集的结构包括代码文本、仓库名称、文件路径、编程语言、许可证和文件大小等字段。数据集的使用需要考虑社会影响、经济影响、安全影响和法律影响。
提供机构:
CodedotAI
原始信息汇总

数据集概述

数据集名称

  • Code Clippy Github Dataset

数据集描述

  • 包含来自GitHub的多种公共代码库,涵盖22种编程语言和23种扩展,未压缩数据总量约16 TB。
  • 数据源自Google BigQuery上的公共GitHub数据集。

数据结构

数据实例

python { code_text: " a = mc^2", repo_name: NotEinstein, file_path: root/users/einstein.py, language: Python, license: isc, size: 2 }

数据字段
字段 类型 描述
code_text string 代码文件中的源代码字符串
repo_name string GitHub仓库名称
file_path string 仓库内代码文件的路径
language string 文件扩展推断出的编程语言
license string GitHub仓库的许可证
size int 源文件的大小(字节)
数据分割
  • 仅提供训练分割。

编程语言

  • 包含22种编程语言,具体包括:C, C#, C++, CSS, Dart, GO, HTML, Java, JavaScript, Jupyter Notebooks (Python), Kotlin, Lisp, Matlab, PHP, Perl, Python, R, Ruby, Rust, SQL, Shell, Swift, TypeScript。

许可证

  • 数据集中的每个示例均标注了关联仓库的许可证,共15种,如:mit, apache-2.0, gpl-2.0等。

数据集统计

  • 数据集未压缩大小约为18 TB。

数据集创建

  • 数据集通过从BigQuery的GitHub数据集中检索特定扩展的文件创建。
  • 当前正在进行额外的过滤和清理工作。

使用注意事项

  • 数据可能包含个人和敏感信息,如秘密密钥、密码等。
  • 使用大型语言模型训练此数据集可能带来技术、经济和法律方面的影响。

版本信息

  • 查询执行日期:2022年2月1日,12:15:59 AM EST。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作