five

loubnabnl/tokenized-github-code-python

收藏
Hugging Face2022-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/loubnabnl/tokenized-github-code-python
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个预分词的GitHub代码数据集,包含了来自GitHub的115M个代码文件,涵盖32种编程语言。数据集使用BPE Tokenizer进行分词,该分词器专门针对代码训练,且预分词可以加速训练过程。此外,数据集还包含了`ratio_char_token`,用于衡量文件中字符数与分词后token数的比例,有助于检测异常文件。
提供机构:
loubnabnl
原始信息汇总

Pretokenized GitHub Code Dataset 概述

数据集描述

  • 来源:该数据集是 GitHub Code dataset 的预处理版本,专注于Python文件。
  • 规模:包含来自GitHub的115M代码文件,涵盖32种编程语言。
  • 预处理:使用基于代码训练的BPE Tokenizer进行预处理,该Tokenizer可在 此仓库 中找到。
  • 特点:提供预处理后的数据集,加速训练过程,避免每次批量调用时进行数据tokenization。
  • 附加信息:包含ratio_char_token,即文件中字符数与token数之比,用于检测异常文件。

使用方法

  • 加载数据:通过datasets库的流式API加载数据集,避免下载整个数据集。

  • 代码示例: python from datasets import load_dataset

    ds = load_dataset("loubnabnl/tokenized-github-code-python", streaming=True, split="train") print(next(iter(ds)))

    输出示例:

    {input_ids: [504, 1639, 492,...,199, 504, 1639], ratio_char_token: 3.560888252148997 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作