marcohanna/processed_bert_dataset

Name: marcohanna/processed_bert_dataset
Creator: marcohanna
Published: 2023-11-11 22:27:12
License: 暂无描述

Hugging Face2023-11-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/marcohanna/processed_bert_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: input_ids sequence: int32 - name: token_type_ids sequence: int8 - name: attention_mask sequence: int8 - name: special_tokens_mask sequence: int8 splits: - name: train num_bytes: 24027526800.0 num_examples: 6674313 download_size: 5887019660 dataset_size: 24027526800.0 --- # Dataset Card for "processed_bert_dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征字段： - 名称：输入Token ID序列（input_ids），类型：int32型序列 - 名称：令牌类型ID序列（token_type_ids），类型：int8型序列 - 名称：注意力掩码（attention_mask），类型：int8型序列 - 名称：特殊令牌掩码（special_tokens_mask），类型：int8型序列数据集划分： - 划分名称：训练集（train），占用字节数：24027526800.0，样本总数：6674313 下载大小：5887019660 数据集总大小：24027526800.0 --- # 「processed_bert_dataset」数据集卡片需补充更多信息（详见：https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards）

提供机构：

marcohanna

原始信息汇总