gmongaras/BERT_Base_Cased_512_Dataset
收藏Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gmongaras/BERT_Base_Cased_512_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用了bert-cased tokenizer,句子被截断到512长度(不是句子对),所有句子对都被提取出来。数据集的原始来源包括bookcorpus和wikipedia的特定版本(20220301.en)。
该数据集使用了bert-cased tokenizer,句子被截断到512长度(不是句子对),所有句子对都被提取出来。数据集的原始来源包括bookcorpus和wikipedia的特定版本(20220301.en)。
提供机构:
gmongaras
原始信息汇总
数据集概述
数据集信息
-
特征:
- 名称: text
- 数据类型: string
-
分割:
- 名称: train
- 字节数: 36961083473
- 样本数: 136338653
-
下载大小: 13895887135
-
数据集大小: 36961083473
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集描述
- 使用bert-cased分词器,句子长度截断为512(非句子对),所有句子对已提取。
原始数据集
- bookcorpus
- wikipedia Variant: 20220301.en



