BogdanTurbal/gender_b_v_2_1
收藏Hugging Face2024-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BogdanTurbal/gender_b_v_2_1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含四个特征:id(字符串类型),text(字符串类型),label(整数类型),dataset_id(整数类型)。数据集分为四个部分:训练集(train),测试集(test),验证集(valid),和小规模训练集(train_small),每个部分都有对应的文件路径和样本数量。数据集的总大小约为2117916.56字节,下载大小为1246967字节。
该数据集包含四个特征:id(字符串类型),text(字符串类型),label(整数类型),dataset_id(整数类型)。数据集分为四个部分:训练集(train),测试集(test),验证集(valid),和小规模训练集(train_small),每个部分都有对应的文件路径和样本数量。数据集的总大小约为2117916.56字节,下载大小为1246967字节。
提供机构:
BogdanTurbal
原始信息汇总
数据集概述
数据集特征
- id: 数据类型为字符串(string)。
- text: 数据类型为字符串(string)。
- label: 数据类型为整数(int64)。
- dataset_id: 数据类型为整数(int64)。
数据集分割
- train: 包含12689个样本,占用1502044.51375字节。
- test: 包含1600个样本,占用190125字节。
- valid: 包含1600个样本,占用190825字节。
- train_small: 包含1983个样本,占用234922.044字节。
数据集大小
- 下载大小:1246967字节。
- 数据集总大小:2117916.5577499997字节。
数据文件配置
- default 配置下的数据文件路径:
- 训练集(train):
data/train-* - 测试集(test):
data/test-* - 验证集(valid):
data/valid-* - 小训练集(train_small):
data/train_small-*
- 训练集(train):



