nthngdy/bert_dataset_202203

Name: nthngdy/bert_dataset_202203
Creator: nthngdy
Published: 2023-01-17 10:10:06
License: 暂无描述

Hugging Face2023-01-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nthngdy/bert_dataset_202203

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为BERT Dataset (BookCorpus + Wikipedia 03/2022)，主要用于文本生成和填充掩码任务。数据集包含146,707,688个训练样本，总大小为24,635,440,616字节，下载大小为14,651,841,592字节。数据集的语言为英语，适用于语言建模和掩码语言建模任务。

提供机构：

nthngdy

原始信息汇总

数据集概述

数据集信息

特征:
- 名称: text
- 数据类型: string
分割:
- 名称: train
- 字节数: 24635440616
- 样本数: 146707688
下载大小: 14651841592
数据集大小: 24635440616

许可

apache-2.0

任务类别

text-generation
fill-mask

语言

易读名称

BERT Dataset (BookCorpus + Wikipedia 03/2022)

5,000+

优质数据集

54 个

任务类型

进入经典数据集

nthngdy/bert_dataset_202203

数据集概述

数据集信息

许可

任务类别

语言

标签

易读名称