bvk/SpamAssassin-spam
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/bvk/SpamAssassin-spam
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Bayesian垃圾邮件过滤器SpamAssassin的创建者贡献,最初以多个单独文件的形式存在,但已被整合为一个CSV文件。文件中包含了6,046条消息,其中1,896条被标记为垃圾邮件。每条消息都包含所有头部信息,尽管贡献者对地址和主机名进行了模糊处理。为了专注于NLP方面,数据集将邮件的主题和内容合并为一个CSV文件中的一列。
This dataset was contributed by the creators of the Bayesian spam filter SpamAssassin and originally existed in various separate files, but has been aggregated into a single CSV file. The file contains 6,046 messages, of which 1,896 are labeled as spam. Each message includes all headers, although the contributors applied some address obfuscation and hostname replacements. Focusing on the NLP aspect, the dataset combines the Subject field with the Contents of each email into one column in the CSV file.
提供机构:
bvk
原始信息汇总
数据集概述
数据来源
- 数据集由Bayesian垃圾邮件过滤器SpamAssassin的创建者贡献。
- 数据可在[SA]链接中找到,分为多个单独的文件。
数据内容
- 包含6,046条消息,其中1,896条被标记为垃圾邮件。
- 所有消息包含邮件头信息,但进行了一些地址混淆和主机名替换。
数据处理
- 所有消息被聚合到一个CSV文件中,包含每封邮件的原始文件名。
- 为了专注于自然语言处理(NLP)方面,将邮件的Subject字段与内容合并为一个列。



