gmongaras/BERT_Base_Cased_512_GLUE
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gmongaras/BERT_Base_Cased_512_GLUE
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于HuggingFace的GLUE数据集,包含train、validation和test三个分割。每个分割的数据文件路径、字节大小和样本数量均已提供。数据集的特征包括sentence(字符串类型)、label(浮点数类型)和dataset_name(字符串类型)。此外,超过512个字符的句子在使用BERT-cased分词器时会被移除。
该数据集来源于HuggingFace的GLUE数据集,包含train、validation和test三个分割。每个分割的数据文件路径、字节大小和样本数量均已提供。数据集的特征包括sentence(字符串类型)、label(浮点数类型)和dataset_name(字符串类型)。此外,超过512个字符的句子在使用BERT-cased分词器时会被移除。
提供机构:
gmongaras
原始信息汇总
数据集概述
配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据特征
- 句子:类型为字符串
- 标签:类型为浮点数(float64)
- 数据集名称:类型为字符串
数据分割
- 训练集:
- 字节数:163269248
- 样本数:949728
- 验证集:
- 字节数:12111201
- 样本数:69711
- 测试集:
- 字节数:64264632
- 样本数:425205
数据集大小
- 下载大小:135600002 字节
- 数据集大小:239645081 字节



