Enron Email Dataset

github2024-07-01 更新2024-07-03 收录

下载链接：

https://github.com/whatheheckisthis/JP-Morgan-Project-Task-2

下载链接

链接失效反馈

官方服务：

资源简介：

Enron Email Dataset是一个大型数据库，包含超过60万封电子邮件，由Enron公司的158名员工生成。这些邮件在公司破产调查期间被联邦能源监管委员会获取。数据集结合了电子邮件和财务数据，存储在一个字典中，每个键对应一个人的名字，值是一个包含该人所有特征的字典。

The Enron Email Dataset is a large-scale database containing over 600,000 email messages generated by 158 employees of Enron Corporation. These emails were obtained by the Federal Energy Regulatory Commission (FERC) during the company's bankruptcy investigation. The dataset combines email and financial data, and is stored in a dictionary structure where each key corresponds to a person's name, with the value being a dictionary containing all the characteristics of that individual.

创建时间：

2024-06-29

原始信息汇总

Enron-Email-Dataset

数据集概述

数据来源: Enron Corpus，包含Enron公司158名员工产生的超过600,000封电子邮件，由联邦能源监管委员会在调查公司破产期间获取。
数据版本: 2015年5月7日版本。
数据结构: 数据集结合了电子邮件和财务数据，存储在一个字典中，每个键是一个人的名字，值是一个包含该人所有特征的字典。
数据点数量: 146个（人）。
特征数量: 21个。
关键人物数量: 18个（Person of Interest）。
总关键人物数量: 35个（从poi_names.txt文件中获取）。

数据集查询示例

James Prentice持有的股票总值: 1095040。
Wesley Colwell发送给关键人物的电子邮件数量: 11封。
Jeffrey K Skilling行使的股票期权价值: 19250000。

数据集分析

初始分析: 包含在explore_enron_data_jn.ipynb文件中。
回归分析: 包含在finance_regression_jn.ipynb文件中，分析奖金、工资和长期激励变量。
异常值处理: 包含在3.outliers文件夹中。
特征缩放和聚类: 包含在4. KMeans clustering_feature_scaling文件夹中。
文本学习: 包含在5. Text Learning文件夹中，包括应用自定义函数parseOutText()的示例和文本向量化的文件。
特征选择: 包含在6. Feature Selection文件夹中，目标是从所有电子邮件中移除签名词。
PCA研究: 包含在7. PCA文件夹中。
验证: 包含在8. Validation文件夹中。
评估指标: 包含在9. Evaluation metrics文件夹中。

搜集汇总

数据集介绍

构建方式

Enron Email Dataset的构建基于Enron公司158名员工在公司破产调查期间生成的超过60万封电子邮件。该数据集由联邦能源监管委员会在调查过程中收集，并由卡内基梅隆大学进行整理和发布。数据集不仅包含电子邮件内容，还整合了相关的财务数据，形成了一个综合性的数据字典。每个数据点代表一个员工，其特征包括电子邮件和财务信息。数据集以pickle文件格式存储，便于直接加载和处理。

特点

Enron Email Dataset的一个显著特点是其综合性，它不仅包含大量的电子邮件文本，还结合了相关的财务数据，为研究提供了丰富的上下文信息。数据集中的每个数据点都代表一个员工，包含21个特征，涵盖了从个人财务状况到电子邮件互动的广泛信息。此外，数据集还特别标注了18名关键人物（POI），这些人物在调查中具有重要意义，为分析提供了明确的研究焦点。

使用方法

使用Enron Email Dataset时，首先需要通过运行`startup.py`文件自动下载并解压数据集。数据集以pickle文件格式存储，可通过`datasets_questions/explore_enron_data.py`脚本加载。数据集的查询和分析可以通过提供的辅助函数`featureFormat()`和`targetFeatureSplit()`进行，这些函数能够将特征名称和数据字典转换为numpy数组，便于进一步的数据处理和分析。此外，数据集的分析工作已在多个Jupyter Notebook文件中展示，涵盖了从初步分析到高级数据处理和模型验证的各个阶段。

背景与挑战

背景概述

Enron Email Dataset，源自于Enron公司破产调查期间由联邦能源监管委员会收集的Enron Corpus，是一个包含超过60万封电子邮件的大型数据库。该数据集由158名Enron员工生成，并于2015年5月7日发布。主要研究人员和机构包括卡内基梅隆大学（CMU），其通过分析这些电子邮件，揭示了公司内部复杂的通信网络和潜在的财务问题。这一数据集不仅为研究企业内部通信提供了宝贵的资源，还为金融欺诈检测和文本分析领域的研究提供了丰富的数据支持。

当前挑战

Enron Email Dataset在构建和应用过程中面临多重挑战。首先，数据集的规模庞大，处理和分析这些数据需要高效的计算资源和算法。其次，数据集中包含了大量的非结构化文本，如何从中提取有价值的信息是一个技术难题。此外，数据集中的隐私和伦理问题也不容忽视，尤其是在涉及个人通信内容时。最后，数据集的更新和维护也是一个持续的挑战，确保数据的准确性和时效性对于后续研究至关重要。

常用场景

经典使用场景

Enron Email Dataset的经典使用场景主要集中在文本挖掘和自然语言处理领域。研究者们利用该数据集进行邮件内容的情感分析、主题建模以及信息检索等任务。通过分析邮件中的文本数据，可以揭示出员工之间的沟通模式、组织结构以及潜在的欺诈行为。此外，该数据集也被广泛用于机器学习算法的训练和测试，特别是在异常检测和分类任务中，如识别邮件中的垃圾信息或检测欺诈行为。

实际应用

在实际应用中，Enron Email Dataset被广泛用于企业和政府机构的欺诈检测系统开发。通过分析邮件内容和通信模式，这些系统能够识别潜在的欺诈行为，从而提高组织的透明度和合规性。此外，该数据集还被用于培训和测试自然语言处理工具，如情感分析和主题建模软件，这些工具在客户服务、市场分析和舆情监控等领域具有广泛的应用前景。

衍生相关工作

Enron Email Dataset的发布催生了一系列相关的经典工作。例如，许多研究者利用该数据集开发了新的文本挖掘算法，用于情感分析和主题建模。此外，该数据集还促进了欺诈检测和异常行为分析领域的研究，推动了相关算法的改进和应用。在机器学习和数据科学领域，Enron Email Dataset也被广泛用于教学和研究，成为许多学术论文和教材中的经典案例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集