gmongaras/BERT_Base_Cased_512_GLUE_Mapped
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gmongaras/BERT_Base_Cased_512_GLUE_Mapped
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于HuggingFace的GLUE数据集,并经过BERT_Base_Cased_512_GLUE的适配处理。数据集包含训练、验证和测试三个分割,每个分割的特征包括标签、数据集名称、输入ID、token类型ID和注意力掩码。数据集中超过512个token的句子被移除或截断,原始标签和数据集类别被保留。
该数据集来源于HuggingFace的GLUE数据集,并经过BERT_Base_Cased_512_GLUE的适配处理。数据集包含训练、验证和测试三个分割,每个分割的特征包括标签、数据集名称、输入ID、token类型ID和注意力掩码。数据集中超过512个token的句子被移除或截断,原始标签和数据集类别被保留。
提供机构:
gmongaras
原始信息汇总
数据集概述
配置信息
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
-
特征:
label:数据类型为float64dataset_name:数据类型为stringinput_ids:序列类型为int32token_type_ids:序列类型为int8attention_mask:序列类型为int8
-
分割:
- 训练集:
- 字节数:232895922
- 样本数:949728
- 验证集:
- 字节数:17255970
- 样本数:69711
- 测试集:
- 字节数:96102951
- 样本数:425205
- 训练集:
-
下载大小:123150665 字节
-
数据集大小:346254843 字节



