loubnabnl/tokenized-github-code-python

Name: loubnabnl/tokenized-github-code-python
Creator: loubnabnl
Published: 2022-04-28 00:13:55
License: 暂无描述

Hugging Face2022-04-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/loubnabnl/tokenized-github-code-python

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个预分词的GitHub代码数据集，包含了来自GitHub的115M个代码文件，涵盖32种编程语言。数据集使用BPE Tokenizer进行分词，该分词器专门针对代码训练，且预分词可以加速训练过程。此外，数据集还包含了`ratio_char_token`，用于衡量文件中字符数与分词后token数的比例，有助于检测异常文件。

提供机构：

loubnabnl

原始信息汇总

Pretokenized GitHub Code Dataset 概述

数据集描述

来源：该数据集是 GitHub Code dataset 的预处理版本，专注于Python文件。
规模：包含来自GitHub的115M代码文件，涵盖32种编程语言。
预处理：使用基于代码训练的BPE Tokenizer进行预处理，该Tokenizer可在此仓库中找到。
特点：提供预处理后的数据集，加速训练过程，避免每次批量调用时进行数据tokenization。
附加信息：包含ratio_char_token，即文件中字符数与token数之比，用于检测异常文件。

使用方法

加载数据：通过datasets库的流式API加载数据集，避免下载整个数据集。
代码示例： python from datasets import load_dataset

ds = load_dataset("loubnabnl/tokenized-github-code-python", streaming=True, split="train") print(next(iter(ds)))

输出示例:

{input_ids: [504, 1639, 492,...,199, 504, 1639], ratio_char_token: 3.560888252148997 }

5,000+

优质数据集

54 个

任务类型

进入经典数据集

loubnabnl/tokenized-github-code-python

Pretokenized GitHub Code Dataset 概述

数据集描述

使用方法

输出示例: