Enron Email Dataset
收藏github2023-09-21 更新2024-05-31 收录
下载链接:
https://github.com/jeswingeorge/Enron-Email-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Enron Corpus是一个包含超过600,000封电子邮件的大型数据库,由Enron公司的158名员工生成,并由联邦能源监管委员会在公司倒闭后的调查中获取。
The Enron Corpus is a large-scale database containing over 600,000 email messages, generated by 158 employees of Enron Corporation and subsequently acquired by the Federal Energy Regulatory Commission during its post-bankruptcy investigation.
创建时间:
2017-10-28
原始信息汇总
数据集概述
数据集名称
Enron Email Dataset
数据集来源
- 下载自:Carnegie Mellon University
- 版本:May 7, 2015 Version
数据集内容
- 包含超过600,000封电子邮件,由Enron公司的158名员工生成。
- 数据集用于构建一个基于财务和电子邮件数据的人员兴趣标识器,以识别与Enron丑闻相关的个人兴趣。
数据集用途
- 用于Udacity的Data Analyst Nanodegree课程中的项目,目的是使用机器学习技能来识别与Enron公司欺诈事件相关的个人兴趣。
相关文件
poi_id.py:用于创建个人兴趣标识器的Python脚本。my_dataset.pkl,my_classifier.pkl,my_feature_list.pkl:运行poi_id.py后生成的三个pickle文件,用于辅助项目评审。tester.py:由Udacity教练使用,结合三个pickle文件来检查项目提交。
技术环境
- Python 2.7
- scikit-learn 0.19.1
搜集汇总
数据集介绍

构建方式
Enron Email Dataset的构建源于Enron公司破产后,美国联邦能源监管委员会在调查过程中获取的超过60万封电子邮件。这些邮件由158名Enron员工生成,涵盖了公司内部通信的广泛内容。数据集的最新版本发布于2015年5月7日,通过CMU的官方网站提供下载。数据集的整理和发布旨在为研究人员提供一个真实的企业通信数据源,用于分析企业内部的沟通模式、欺诈行为检测等研究。
特点
Enron Email Dataset的特点在于其规模庞大且内容真实,涵盖了Enron公司内部的高层管理人员与普通员工之间的电子邮件通信。数据集不仅包含邮件正文,还涉及发件人、收件人、时间戳等元数据,为研究企业内部的沟通网络、信息流动以及潜在的欺诈行为提供了丰富的信息。此外,数据集还附带了财务数据,使得研究者能够结合邮件内容和财务信息进行更深入的分析。
使用方法
使用Enron Email Dataset时,用户可以通过克隆Udacity提供的GitHub仓库,运行其中的`startup.py`文件来自动下载并解压数据集。数据集的使用主要围绕构建基于机器学习的兴趣人物识别器(POI Identifier),通过分析邮件和财务数据来识别潜在的欺诈行为。项目中提供了`poi_id.py`脚本,用于生成POI识别器,并生成三个pickle文件(`my_dataset.pkl`、`my_classifier.pkl`、`my_feature_list.pkl`),这些文件有助于项目的评审和进一步分析。
背景与挑战
背景概述
Enron Email Dataset 是一个包含超过60万封电子邮件的庞大数据库,这些邮件由Enron公司的158名员工生成,并在公司破产后被美国联邦能源监管委员会获取。该数据集于2015年5月7日发布,主要用于研究公司内部通信模式及欺诈行为的检测。Enron公司曾是2000年美国最大的公司之一,然而在2002年因大规模公司欺诈而破产。这一事件引发了联邦调查,大量通常保密的公司信息被公开,包括高管的电子邮件和财务数据。该数据集为研究公司治理、欺诈检测以及自然语言处理等领域提供了宝贵的数据资源。
当前挑战
Enron Email Dataset 的主要挑战在于其复杂性和多样性。首先,该数据集包含大量非结构化文本数据,如何从中提取有效特征以识别欺诈行为是一个关键问题。其次,由于邮件内容涉及多个主题和语境,如何准确分类和标注数据也是一个技术难点。此外,数据集中存在大量噪声和冗余信息,如何清洗和预处理数据以提高模型的准确性是另一个重要挑战。最后,由于数据集涉及敏感信息,如何在保护隐私的前提下进行有效的数据分析和共享也是一个亟待解决的问题。
常用场景
经典使用场景
Enron Email Dataset 作为企业通信数据的典型代表,广泛应用于自然语言处理、社交网络分析和欺诈检测等领域。研究者通过分析邮件内容、发送者和接收者之间的关系,揭示企业内部的信息流动模式。该数据集还被用于构建机器学习模型,识别潜在的欺诈行为,尤其是在金融犯罪检测中表现出色。
实际应用
在实际应用中,Enron Email Dataset 被广泛用于企业内部的合规审查和风险管理。金融机构和监管机构利用该数据集训练模型,以识别潜在的欺诈行为和高风险员工。此外,该数据集还被用于开发企业内部通信分析工具,帮助企业优化信息流动和决策流程。
衍生相关工作
基于 Enron Email Dataset,研究者们开发了多种经典的机器学习模型和算法,如基于社交网络的欺诈检测模型和基于自然语言处理的邮件分类系统。这些工作不仅推动了相关领域的研究进展,还为其他企业通信数据集的分析提供了重要的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



