bvk/ENRON-spam|垃圾邮件检测数据集|朴素贝叶斯数据集

hugging_face2024-07-16 更新2024-07-22 收录

垃圾邮件检测

朴素贝叶斯

下载链接：

https://hf-mirror.com/datasets/bvk/ENRON-spam

下载链接

链接失效反馈

资源简介：

在美国Enron丑闻之后，联邦能源监管委员会公开了包含158名员工的60万封电子邮件的数据集。该数据集后来被麻省理工学院购买并处理，删除了部分附件。该数据集的不同版本仍可在美国国会图书馆和特定网站上找到。一个常用的子集由希腊信息学和电信研究所的研究人员创建，用于分析和测试各种垃圾邮件过滤器，包括几种朴素贝叶斯版本。当前的CSV文件包含这个特定的数据集，共有33,716封电子邮件，其中17,171封是垃圾邮件。文件中包含了邮件主题与内容的拼接，以及原始文件名的单独列。

The dataset contains 33,716 emails, of which 17,171 are spam. These emails were selected from the 600,000 emails made public after the Enron scandal, focusing on six employees with large email volumes. The dataset is used to test and analyze various spam filters, including several Naïve Bayes versions.

提供机构：

bvk

原始信息汇总

Enron 电子邮件数据集

概述

来源：该数据集源自美国联邦能源监管委员会公开的600,000封电子邮件，涉及158名员工。数据集随后被MIT购买并处理，部分附件被删除或编辑。
版本：数据集的版本可在美国国会图书馆和https://www.cs.cmu.edu/~./enron/获取。

子集

子集来源：互联网上可以找到该数据集的多个子集，包括在Github、HuggingFace和Kaggle上。
特定子集：希腊信息与电信研究所的研究人员在他们的论文[Metsis]中描述了一个常用子集。该子集选择了六名电子邮件量较大的Enron员工，包含33,716封电子邮件，其中17,171封为垃圾邮件。

数据内容

文件格式：CSV文件。
字段：包含主题与内容的连接字段，以及原始文件名。

研究目的

研究方向：用于分析和测试各种垃圾邮件过滤器，包括多种朴素贝叶斯版本。

参考文献

[Metsis] Metsis, V., Androutsopoulos, I., & Paliouras. G., Spam filtering with naive bayes-which naive bayes? Proceedings of the 3rd Conference on Email and Anti-Spam (CEAS 2006), Mountain View, CA, USA, 2006.

AI搜集汇总

数据集介绍

构建方式

bvk/ENRON-spam数据集源自于美国联邦能源监管委员会在安然丑闻后公开的600,000封电子邮件，这些邮件来自158名员工。该数据集经过MIT的处理，删除了部分附件并进行了修订。希腊信息与电信研究所的研究人员从中选取了六名邮件量较大的员工，生成了一个包含33,716封电子邮件的子集，其中17,171封被标记为垃圾邮件。此数据集的构建旨在为垃圾邮件过滤器的分析和测试提供基础，特别是针对多种朴素贝叶斯算法的应用。

特点

bvk/ENRON-spam数据集的一个显著特点是其真实性和历史背景，源自实际的企业通信，具有较高的研究价值。数据集包含了邮件的主题和内容，以及原始文件名，这为研究者提供了丰富的信息来源。此外，数据集的标签明确，垃圾邮件与非垃圾邮件的比例接近1:1，为机器学习模型的训练和评估提供了良好的平衡数据。

使用方法

bvk/ENRON-spam数据集适用于多种自然语言处理任务，特别是垃圾邮件检测。研究者可以通过加载该数据集，利用其丰富的邮件内容和明确的标签进行模型训练和测试。数据集的结构设计便于直接用于分类任务，研究者可以提取主题和内容信息，结合原始文件名进行特征工程，从而构建和优化垃圾邮件过滤模型。

背景与挑战

背景概述

在安然公司丑闻之后，美国联邦能源监管委员会公开了158名员工的60万封电子邮件数据集。该数据集随后被麻省理工学院购买并处理，删除了部分附件并进行了修订。该数据集的多个版本可在美国的国会图书馆和卡内基梅隆大学的网站上找到。希腊信息学与电信研究所的研究人员在其论文中描述了如何从该数据集中选取了六名电子邮件量大的员工的数据，生成了一个用于分析和测试各种垃圾邮件过滤器的子集，其中包括几种朴素贝叶斯版本。这个特定的数据集包含33,716封电子邮件，其中17,171封被标记为垃圾邮件，旨在推动垃圾邮件过滤技术的研究和发展。

当前挑战

该数据集的主要挑战在于其历史背景和数据处理的复杂性。首先，数据集来源于一个具有高度争议性的公司丑闻，这可能导致数据中包含敏感或不适当的内容，增加了数据清洗的难度。其次，数据集的构建过程中，研究人员需要从大量电子邮件中筛选出具有代表性的样本，这要求高度的专业知识和细致的数据处理技术。此外，由于数据集的目的是用于测试垃圾邮件过滤器，因此如何确保数据的标签准确性和过滤器的有效性也是一个重要挑战。

常用场景

经典使用场景

bvk/ENRON-spam数据集的经典使用场景主要集中在垃圾邮件过滤技术的研究与测试。该数据集包含了33,716封电子邮件，其中17,171封被标记为垃圾邮件，为研究人员提供了丰富的数据资源，用于开发和验证各种垃圾邮件过滤算法，特别是基于朴素贝叶斯分类器的模型。

衍生相关工作

基于bvk/ENRON-spam数据集，许多经典工作得以展开，包括但不限于Metsis等人在2006年提出的多种朴素贝叶斯垃圾邮件过滤模型。这些研究不仅验证了不同朴素贝叶斯模型的性能，还为后续的机器学习和深度学习方法在垃圾邮件过滤领域的应用奠定了基础。

数据集最近研究

最新研究方向

在电子邮件分类与垃圾邮件检测领域，bvk/ENRON-spam数据集因其历史背景和丰富的邮件内容而备受关注。该数据集源自安然公司丑闻后公开的60万封员工邮件，经过MIT的进一步处理，成为研究垃圾邮件过滤技术的宝贵资源。近年来，研究者们利用该数据集探索了多种机器学习算法，尤其是基于朴素贝叶斯的方法，以提升垃圾邮件检测的准确性和效率。此外，该数据集还被广泛用于验证新型邮件分类模型的性能，推动了电子邮件安全技术的进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息，包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况，如收入和交易量的变化趋势。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录