timinar/c4-code-tokenized-2b-extended

Name: timinar/c4-code-tokenized-2b-extended
Creator: timinar
Published: 2024-05-28 12:24:52
License: 暂无描述

Hugging Face2024-05-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/timinar/c4-code-tokenized-2b-extended

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要包含训练用的标记化文本数据，每个数据点由整数序列组成，用于表示文本中的标记。数据集被划分为一个主要的训练部分，包含超过170万条示例，总数据量超过14TB。数据集的下载大小约为3.4GB。

提供机构：

timinar

原始信息汇总

数据集概述

5,000+

优质数据集

54 个

任务类型

进入经典数据集