sanagnos/processed_gpt_dataset_small
收藏Hugging Face2023-03-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sanagnos/processed_gpt_dataset_small
下载链接
链接失效反馈官方服务:
资源简介:
数据集processed_gpt_dataset_small包含三个主要特征:input_ids、attention_mask和special_tokens_mask,分别对应序列类型int32和int8。数据集主要分为训练集,包含14289425个样本,总大小为11145751500.0字节,下载大小为3620004230字节。
数据集processed_gpt_dataset_small包含三个主要特征:input_ids、attention_mask和special_tokens_mask,分别对应序列类型int32和int8。数据集主要分为训练集,包含14289425个样本,总大小为11145751500.0字节,下载大小为3620004230字节。
提供机构:
sanagnos
原始信息汇总
数据集概述
数据集名称
- 名称: processed_gpt_dataset_small
数据集特征
-
特征1: input_ids
- 数据类型: int32
- 序列类型: sequence
-
特征2: attention_mask
- 数据类型: int8
- 序列类型: sequence
-
特征3: special_tokens_mask
- 数据类型: int8
- 序列类型: sequence
数据集分割
- 分割名称: train
- 数据大小: 11145751500.0 bytes
- 样本数量: 14289425
数据集大小
- 下载大小: 3620004230 bytes
- 总数据大小: 11145751500.0 bytes



