gokulsrinivasagan/wiki_book_corpus_processed_gpt2_dataset_complete

Name: gokulsrinivasagan/wiki_book_corpus_processed_gpt2_dataset_complete
Creator: gokulsrinivasagan
Published: 2024-07-01 18:14:38
License: 暂无描述

Hugging Face2024-07-01 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/gokulsrinivasagan/wiki_book_corpus_processed_gpt2_dataset_complete

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练和验证的文本数据，特征包括input_ids（整数序列）、attention_mask（整数序列）和labels（整数序列）。数据集分为训练集和验证集，训练集包含5,495,866个示例，验证集包含55,176个示例。数据集的下载大小为21,274,186,862字节，总大小为73,962,083,608字节。

This dataset contains text data for training and validation, with features including input_ids (sequence of integers), attention_mask (sequence of integers), and labels (sequence of integers). The dataset is divided into a training set with 5,495,866 examples and a validation set with 55,176 examples. The download size of the dataset is 21,274,186,862 bytes, and the total size is 73,962,083,608 bytes.

提供机构：

gokulsrinivasagan

原始信息汇总

数据集概述

数据特征

input_ids: 序列类型为 int32
attention_mask: 序列类型为 int8
labels: 序列类型为 int64

数据分割

train:
- 字节数: 73226918584
- 样本数: 5495866
validation:
- 字节数: 735165024
- 样本数: 55176

数据集大小

下载大小: 21274186862 字节
总大小: 73962083608 字节

配置

config_name: default
- data_files:
  - train: data/train-*
  - validation: data/validation-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集