five

AlignmentResearch/EnronSpam

收藏
Hugging Face2024-07-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AlignmentResearch/EnronSpam
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个配置(default、neg、pos),每个配置都有训练集和验证集。数据集的特征包括分类标签(clf_label)、指令(instructions)、内容(content)、答案提示(answer_prompt)和生成目标(gen_target)。分类标签有两个类别:HAM和SPAM。数据集的大小和下载大小也被详细列出。

该数据集包含三个配置(default、neg、pos),每个配置都有训练集和验证集。数据集的特征包括分类标签(clf_label)、指令(instructions)、内容(content)、答案提示(answer_prompt)和生成目标(gen_target)。分类标签有两个类别:HAM和SPAM。数据集的大小和下载大小也被详细列出。
提供机构:
AlignmentResearch
原始信息汇总

数据集概述

配置名称: default

  • 特征:
    • clf_label: 分类标签,类别名称为 HAM 和 SPAM。
    • instructions: 字符串类型。
    • content: 字符串序列类型。
    • answer_prompt: 字符串类型。
    • gen_target: 字符串类型。
  • 分割:
    • train: 29341个样本,占用33502871字节。
    • validation: 1852个样本,占用2096754字节。
  • 下载大小: 18236102字节。
  • 数据集大小: 35599625字节。

配置名称: neg

  • 特征:
    • clf_label: 分类标签,类别名称为 HAM 和 SPAM。
    • instructions: 字符串类型。
    • content: 字符串序列类型。
    • answer_prompt: 字符串类型。
    • gen_target: 字符串类型。
  • 分割:
    • train: 14355个样本,占用16391183.436317781字节。
    • validation: 912个样本,占用1032526.807775378字节。
  • 下载大小: 8684358字节。
  • 数据集大小: 17423710.244093157字节。

配置名称: pos

  • 特征:
    • clf_label: 分类标签,类别名称为 HAM 和 SPAM。
    • instructions: 字符串类型。
    • content: 字符串序列类型。
    • answer_prompt: 字符串类型。
    • gen_target: 字符串类型。
  • 分割:
    • train: 14986个样本,占用17111687.56368222字节。
    • validation: 940个样本,占用1064227.192224622字节。
  • 下载大小: 9167339字节。
  • 数据集大小: 18175914.755906843字节。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作