likhith231/enron_spam_small
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/likhith231/enron_spam_small
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从SetFit/enron_spam数据集中提取的一个子集,包含1000个训练样本和1000个测试样本,适用于二分类文本分类任务。数据集包含两列:Text和Label,分别表示邮件内容和邮件是否为垃圾邮件的标签。
该数据集是从SetFit/enron_spam数据集中提取的一个子集,包含1000个训练样本和1000个测试样本,适用于二分类文本分类任务。数据集包含两列:Text和Label,分别表示邮件内容和邮件是否为垃圾邮件的标签。
提供机构:
likhith231
原始信息汇总
数据集概述
数据集信息
特征
- 名称: label
- 数据类型: int64
- 名称: text
- 数据类型: string
分割
- 名称: train
- 字节数: 1452847
- 样本数: 1000
- 名称: validation
- 字节数: 1685310
- 样本数: 1000
大小
- 下载大小: 1637839
- 数据集大小: 3138157
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 分割: validation
- 路径: data/validation-*
- 分割: train
- 数据文件:
任务类别
- 文本分类
数据集详情
列
- Text: 表示电子邮件的内容。
- Label: 指示电子邮件是否被分类为spam(垃圾邮件)或ham(非垃圾邮件)。
数据集来源
- 仓库: https://huggingface.co/datasets/SetFit/enron_spam



