five

TREC2005-2007垃圾邮件数据集

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26538.html
下载链接
链接失效反馈
官方服务:
资源简介:
TREC 2006 Spam Track Public Corpora:https://plg.uwaterloo.ca/~gvcormac/treccorpus06/about.html 是一个公开的垃圾邮件语料库,由国际文本检索会议提供,分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保留了邮件的原有格式和内容。 除TREC 2006外,还有TREC 2005和TREC 2007的英文垃圾邮件数据集(没有中文)。 文件目录形式:delay和full分别是一种垃圾邮件过滤器的过滤机制,full目录下,是理想的邮件分类结果,我们可以视为研究的标签。 ``` trec06c │ └───data │ │ 000 │ │ 001 │ │ ... │ └───215 └───delay │ │ index └───full │ │ index

TREC 2006 Spam Track Public Corpora: Available at https://plg.uwaterloo.ca/~gvcormac/treccorpus06/about.html, this is a public spam email corpus provided by the Text Retrieval Conference (TREC). It is divided into an English dataset (trec06p) and a Chinese dataset (trec06c). All emails in this corpus are sourced from real-world messages, with their original formats and content fully preserved. In addition to the TREC 2006 release, English-only spam email datasets for TREC 2005 and TREC 2007 are also publicly accessible, with no Chinese version provided for these two collections. ### Directory Structure The directories `delay` and `full` respectively represent two filtering mechanisms of spam email filters. The `full` directory contains ideal email classification results, which can be used as the ground-truth labels for related research. trec06c ├─ data │ ├─ 000 │ ├─ 001 │ │ ... │ └─ 215 ├─ delay │ └─ index └─ full └─ index
提供机构:
帕依提提
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TREC2005-2007垃圾邮件数据集是一个公开的垃圾邮件语料库,由国际文本检索会议提供,涵盖2005年至2007年的数据。该数据集包括TREC 2006的英文和中文真实邮件,保留原始格式和内容,而TREC 2005和2007仅包含英文数据;文件目录结构分为delay和full,其中full目录提供理想的分类结果,可作为研究标签,适用于垃圾邮件过滤研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务