gmongaras/BERT_Base_Cased_512_Dataset_Mapped

Name: gmongaras/BERT_Base_Cased_512_Dataset_Mapped
Creator: gmongaras
Published: 2023-11-29 07:10:37
License: 暂无描述

Hugging Face2023-11-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gmongaras/BERT_Base_Cased_512_Dataset_Mapped

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用了bert-cased分词器，并将句子截断为512长度（非句子对），所有句子对都被提取。原始数据集来源于BookCorpus和Wikipedia（20220301.en版本）。数据集的特征包括input_ids、token_type_ids和attention_mask，均为序列类型。数据集包含一个训练集，大小为52875464012.02522字节，包含136226984个示例。

提供机构：

gmongaras

原始信息汇总

数据集概述

特征信息

input_ids: 序列类型为 int32
token_type_ids: 序列类型为 int8
attention_mask: 序列类型为 int8

数据分割

train: 包含 136226984 个样本，数据大小为 52875464012.02522 字节

数据大小

下载大小: 17583618282 字节
数据集大小: 52875464012.02522 字节

配置信息

default: 数据文件路径为 data/train-*

数据集描述

使用 bert-cased 分词器，句子长度截断为 512
包含所有句子对

原始数据集来源

bookcorpus
wikipedia 版本: 20220301.en

5,000+

优质数据集

54 个

任务类型

进入经典数据集