theojiang/bookcorpus-wiki-gte1.5_input_ids-mlm-seqlen256
收藏Hugging Face2024-06-29 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/theojiang/bookcorpus-wiki-gte1.5_input_ids-mlm-seqlen256
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个主要特征:input_mask(输入掩码)、input_ids(输入ID)和actual_token_len(实际令牌长度)。数据集仅包含一个训练集分割,共有80,082,650个样本,总大小为247,615,553,800字节。下载大小为5,329,742,623字节。数据集的配置文件名为default,数据文件路径为data/train-*。
The dataset contains three main features: input_mask, input_ids, and actual_token_len. It includes only one training split with 80,082,650 samples, totaling 247,615,553,800 bytes in size. The download size is 5,329,742,623 bytes. The datasets configuration file is named default, and the data files are located at data/train-*.
提供机构:
theojiang
原始信息汇总
数据集概述
特征信息
- input_mask: 序列类型为
int64 - input_ids: 序列类型为
int32 - actual_token_len: 序列类型为
int64
数据分割
- train:
- 字节数: 247615553800
- 样本数: 80082650
数据集大小
- 下载大小: 5329742623 字节
- 数据集总大小: 247615553800 字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



