gmongaras/wikipedia_BERT_512

Name: gmongaras/wikipedia_BERT_512
Creator: gmongaras
Published: 2023-11-05 17:23:35
License: 暂无描述

Hugging Face2023-11-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gmongaras/wikipedia_BERT_512

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用了bert-cased分词器，并将文本长度限制在512个标记以内。原始数据集来源于HuggingFace的Wikipedia数据集，具体版本为20220301.en。数据集的训练集包含6,458,670个样本，总大小为19,918,538,280字节。特征包括input_ids、token_type_ids和attention_mask，分别表示输入标记的ID序列、标记类型ID序列和注意力掩码序列。

提供机构：

gmongaras

原始信息汇总

数据集概述

配置信息

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集信息

特征:
- 名称: input_ids
  - 类型: int32 序列
- 名称: token_type_ids
  - 类型: int8 序列
- 名称: attention_mask
  - 类型: int8 序列
分割:
- 名称: train
  - 字节数: 19918538280
  - 样本数: 6458670
下载大小: 4218892705
数据集大小: 19918538280

其他信息

原始数据集: https://huggingface.co/datasets/wikipedia
变体: 20220301.en

5,000+

优质数据集

54 个

任务类型

进入经典数据集