KimDongH/spam_dataset_2
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KimDongH/spam_dataset_2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含五个特征:label(标签,数据类型为int64)、subject(主题,数据类型为string)、message(消息,数据类型为string)、input_ids(输入ID,序列类型为int32)、token_type_ids(token类型ID,序列类型为int8)和attention_mask(注意力掩码,序列类型为int8)。数据集分为三个部分:train(训练集,包含25372个样本,大小为75055573字节)、validation(验证集,包含6344个样本,大小为18107843字节)和test(测试集,包含2000个样本,大小为5822612字节)。总下载大小为46324581字节,总数据集大小为98986028字节。
该数据集包含五个特征:label(标签,数据类型为int64)、subject(主题,数据类型为string)、message(消息,数据类型为string)、input_ids(输入ID,序列类型为int32)、token_type_ids(token类型ID,序列类型为int8)和attention_mask(注意力掩码,序列类型为int8)。数据集分为三个部分:train(训练集,包含25372个样本,大小为75055573字节)、validation(验证集,包含6344个样本,大小为18107843字节)和test(测试集,包含2000个样本,大小为5822612字节)。总下载大小为46324581字节,总数据集大小为98986028字节。
提供机构:
KimDongH
原始信息汇总
数据集概述
特征信息
- label: 数据类型为
int64 - subject: 数据类型为
string - message: 数据类型为
string - input_ids: 序列类型为
int32 - token_type_ids: 序列类型为
int8 - attention_mask: 序列类型为
int8
数据分割
- train: 包含 25372 个样本,占用 75055573 字节
- validation: 包含 6344 个样本,占用 18107843 字节
- test: 包含 2000 个样本,占用 5822612 字节
数据集大小
- 下载大小: 46324581 字节
- 数据集大小: 98986028 字节
配置信息
- config_name: default
- data_files:
- train: 路径为
data/train-* - validation: 路径为
data/validation-* - test: 路径为
data/test-*
- train: 路径为
- data_files:



