gmongaras/BERT_Base_Cased_128_Dataset_Mapped

Name: gmongaras/BERT_Base_Cased_128_Dataset_Mapped
Creator: gmongaras
Published: 2024-02-03 20:04:54
License: 暂无描述

Hugging Face2024-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gmongaras/BERT_Base_Cased_128_Dataset_Mapped

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用了bert-cased分词器，并将句子截断为128长度（非句子对），所有句子对均被提取。原始数据集来源于BookCorpus和Wikipedia（20220301.en版本）。数据集的特征包括input_ids、token_type_ids和attention_mask，均为序列类型。数据集的分割为train，包含131,569,119个样本，下载大小为15,915,934,708字节，数据集大小为51,067,549,265.998314字节。

提供机构：

gmongaras

原始信息汇总