gmongaras/BERT_Base_Cased_512_Dataset_Mapped
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gmongaras/BERT_Base_Cased_512_Dataset_Mapped
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用了bert-cased分词器,并将句子截断为512长度(非句子对),所有句子对都被提取。原始数据集来源于BookCorpus和Wikipedia(20220301.en版本)。数据集的特征包括input_ids、token_type_ids和attention_mask,均为序列类型。数据集包含一个训练集,大小为52875464012.02522字节,包含136226984个示例。
该数据集使用了bert-cased分词器,并将句子截断为512长度(非句子对),所有句子对都被提取。原始数据集来源于BookCorpus和Wikipedia(20220301.en版本)。数据集的特征包括input_ids、token_type_ids和attention_mask,均为序列类型。数据集包含一个训练集,大小为52875464012.02522字节,包含136226984个示例。
提供机构:
gmongaras
原始信息汇总
数据集概述
特征信息
- input_ids: 序列类型为
int32 - token_type_ids: 序列类型为
int8 - attention_mask: 序列类型为
int8
数据分割
- train: 包含 136226984 个样本,数据大小为 52875464012.02522 字节
数据大小
- 下载大小: 17583618282 字节
- 数据集大小: 52875464012.02522 字节
配置信息
- default: 数据文件路径为
data/train-*
数据集描述
- 使用
bert-cased分词器,句子长度截断为 512 - 包含所有句子对
原始数据集来源
- bookcorpus
- wikipedia 版本: 20220301.en



