gmongaras/wikipedia_book_BERT_512

Name: gmongaras/wikipedia_book_BERT_512
Creator: gmongaras
Published: 2023-11-08 20:21:28
License: 暂无描述

Hugging Face2023-11-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gmongaras/wikipedia_book_BERT_512

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用了bert-cased tokenizer，并且是books和wikipedia数据集的合并。数据集的特征包括input_ids、token_type_ids和attention_mask，数据分割为train，下载大小为7045365171字节，数据集大小为248147577432字节。

提供机构：

gmongaras

原始信息汇总

数据集概述

数据特征

input_ids: 序列类型为 int32
token_type_ids: 序列类型为 int8
attention_mask: 序列类型为 int8

数据分割

train: 包含 80462898 个样本，总字节数为 248147577432

数据大小

下载大小: 7045365171 字节
数据集大小: 248147577432 字节

配置

default: 包含训练数据文件，路径为 data/train-*

数据集描述

使用 bert-cased 分词器，截断长度为 512 个 token。
数据集由书籍和维基百科数据集合并而成。

5,000+

优质数据集

54 个

任务类型

进入经典数据集