hellosimple/processed_bert_dataset
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/hellosimple/processed_bert_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,包括input_ids、token_type_ids、attention_mask和special_tokens_mask,这些特征分别以int32和int8的序列形式存储。数据集被分割为训练集,包含6,674,295个样本,总大小为24,027,462,000字节。下载大小为5,887,380,148字节。
该数据集包含多个特征,包括input_ids、token_type_ids、attention_mask和special_tokens_mask,这些特征分别以int32和int8的序列形式存储。数据集被分割为训练集,包含6,674,295个样本,总大小为24,027,462,000字节。下载大小为5,887,380,148字节。
提供机构:
hellosimple
原始信息汇总
数据集信息
特征
- input_ids: 序列类型为 int32
- token_type_ids: 序列类型为 int8
- attention_mask: 序列类型为 int8
- special_tokens_mask: 序列类型为 int8
数据分割
- train: 包含 6674295 个样本,数据大小为 24027462000.0 字节
数据集大小
- 下载大小: 5887380148 字节
- 数据集大小: 24027462000.0 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



