SpamAssassin Public Corpus
收藏arXiv2025-09-30 收录
下载链接:
https://spamassassin.apache.org/old/publiccorpus/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个公开可用的电子邮件信息集合,专为测试垃圾邮件过滤系统而设计。它包含了6,047条信息,其中垃圾邮件的比例大约为31%。该语料库被划分为五个部分,这些部分在区分垃圾邮件和非垃圾邮件的难度级别上有所不同。整个数据集规模为6,047条信息,任务旨在进行电子邮件垃圾邮件检测。
This dataset is a publicly available collection of email messages specifically designed for testing spam filtering systems. It contains 6,047 messages, with spam accounting for approximately 31% of the total corpus. This email corpus is divided into five subsets that differ in the difficulty level of discriminating spam from ham emails. The entire dataset comprises 6,047 messages, and the core task is email spam detection.
提供机构:
SpamAssassin
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是用于垃圾邮件分类研究的公开语料库,包含按日期分类的'easy_ham'、'hard_ham'和'spam'三类邮件数据,文件大小在1.0M到2.0M之间。
以上内容由遇见数据集搜集并总结生成



