arun-AiBharat/BookCorpus_Chunked_1K_Tokens_GPT2_Pretraining

Name: arun-AiBharat/BookCorpus_Chunked_1K_Tokens_GPT2_Pretraining
Creator: arun-AiBharat
Published: 2024-09-30 17:57:39
License: 暂无描述

Hugging Face2024-09-30 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/arun-AiBharat/BookCorpus_Chunked_1K_Tokens_GPT2_Pretraining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练的文本数据，其中包括input_ids和attention_mask两个特征。input_ids是由int32类型整数序列组成的输入标识，attention_mask是用于注意力机制的int8类型序列掩码。数据集的训练 split 包含超过105万个示例，总文件大小为5GB。

The dataset contains text data for training, including two features: input_ids and attention_mask. input_ids are integer sequences of type int32 representing input tokens, and attention_mask are sequences of type int8 used for attention mechanisms. The training split of the dataset contains over 1,055,000 examples, with a total file size of 5GB.

提供机构：

arun-AiBharat

5,000+

优质数据集

54 个

任务类型

进入经典数据集