loubnabnl/tokenized-github-code-python
收藏Hugging Face2022-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/loubnabnl/tokenized-github-code-python
下载链接
链接失效反馈官方服务:
资源简介:
这是一个预分词的GitHub代码数据集,包含了来自GitHub的115M个代码文件,涵盖32种编程语言。数据集使用BPE Tokenizer进行分词,该分词器专门针对代码训练,且预分词可以加速训练过程。此外,数据集还包含了`ratio_char_token`,用于衡量文件中字符数与分词后token数的比例,有助于检测异常文件。
提供机构:
loubnabnl
原始信息汇总
Pretokenized GitHub Code Dataset 概述
数据集描述
- 来源:该数据集是 GitHub Code dataset 的预处理版本,专注于Python文件。
- 规模:包含来自GitHub的115M代码文件,涵盖32种编程语言。
- 预处理:使用基于代码训练的BPE Tokenizer进行预处理,该Tokenizer可在 此仓库 中找到。
- 特点:提供预处理后的数据集,加速训练过程,避免每次批量调用时进行数据tokenization。
- 附加信息:包含
ratio_char_token,即文件中字符数与token数之比,用于检测异常文件。
使用方法
-
加载数据:通过
datasets库的流式API加载数据集,避免下载整个数据集。 -
代码示例: python from datasets import load_dataset
ds = load_dataset("loubnabnl/tokenized-github-code-python", streaming=True, split="train") print(next(iter(ds)))
输出示例:
{input_ids: [504, 1639, 492,...,199, 504, 1639], ratio_char_token: 3.560888252148997 }



