timinar/c4-code-tokenized-2b-extended
收藏Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/timinar/c4-code-tokenized-2b-extended
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要包含训练用的标记化文本数据,每个数据点由整数序列组成,用于表示文本中的标记。数据集被划分为一个主要的训练部分,包含超过170万条示例,总数据量超过14TB。数据集的下载大小约为3.4GB。
该数据集主要包含训练用的标记化文本数据,每个数据点由整数序列组成,用于表示文本中的标记。数据集被划分为一个主要的训练部分,包含超过170万条示例,总数据量超过14TB。数据集的下载大小约为3.4GB。
提供机构:
timinar
原始信息汇总
数据集概述
数据集特征
- 名称: tokens
- 类型: 整数序列(int64)
数据集分割
- 分割名称: train
- 示例数量: 1732102
- 存储大小: 14196307992.0字节
数据集下载与存储信息
- 下载大小: 3404209850字节
- 数据集总大小: 14196307992.0字节
配置信息
- 配置名称: default
- 数据文件路径: data/train-*
- 分割类型: train



