AlignmentResearch/EnronSpam
收藏Hugging Face2024-07-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AlignmentResearch/EnronSpam
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个配置(default、neg、pos),每个配置都有训练集和验证集。数据集的特征包括分类标签(clf_label)、指令(instructions)、内容(content)、答案提示(answer_prompt)和生成目标(gen_target)。分类标签有两个类别:HAM和SPAM。数据集的大小和下载大小也被详细列出。
该数据集包含三个配置(default、neg、pos),每个配置都有训练集和验证集。数据集的特征包括分类标签(clf_label)、指令(instructions)、内容(content)、答案提示(answer_prompt)和生成目标(gen_target)。分类标签有两个类别:HAM和SPAM。数据集的大小和下载大小也被详细列出。
提供机构:
AlignmentResearch
原始信息汇总
数据集概述
配置名称: default
- 特征:
- clf_label: 分类标签,类别名称为 HAM 和 SPAM。
- instructions: 字符串类型。
- content: 字符串序列类型。
- answer_prompt: 字符串类型。
- gen_target: 字符串类型。
- 分割:
- train: 29341个样本,占用33502871字节。
- validation: 1852个样本,占用2096754字节。
- 下载大小: 18236102字节。
- 数据集大小: 35599625字节。
配置名称: neg
- 特征:
- clf_label: 分类标签,类别名称为 HAM 和 SPAM。
- instructions: 字符串类型。
- content: 字符串序列类型。
- answer_prompt: 字符串类型。
- gen_target: 字符串类型。
- 分割:
- train: 14355个样本,占用16391183.436317781字节。
- validation: 912个样本,占用1032526.807775378字节。
- 下载大小: 8684358字节。
- 数据集大小: 17423710.244093157字节。
配置名称: pos
- 特征:
- clf_label: 分类标签,类别名称为 HAM 和 SPAM。
- instructions: 字符串类型。
- content: 字符串序列类型。
- answer_prompt: 字符串类型。
- gen_target: 字符串类型。
- 分割:
- train: 14986个样本,占用17111687.56368222字节。
- validation: 940个样本,占用1064227.192224622字节。
- 下载大小: 9167339字节。
- 数据集大小: 18175914.755906843字节。



