gmongaras/book_BERT_512

Name: gmongaras/book_BERT_512
Creator: gmongaras
Published: 2023-11-07 07:08:15
License: 暂无描述

Hugging Face2023-11-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gmongaras/book_BERT_512

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用bert-cased分词器，每个样本的token数量上限为512。数据集主要包含三个特征：input_ids（整数序列）、token_type_ids（8位整数序列）和attention_mask（8位整数序列）。数据集分为训练集，大小为228229039152字节，包含74004228个样本。

提供机构：

gmongaras

原始信息汇总

数据集概述

特征信息

input_ids: 序列类型为int32
token_type_ids: 序列类型为int8
attention_mask: 序列类型为int8

数据分割

train: 包含74004228个样本，总字节数为228229039152

数据大小

下载大小: 2826157131字节
数据集大小: 228229039152字节

配置信息

config_name: default
data_files:
- split: train
- path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集