Enron Email Dataset
收藏github2024-07-01 更新2024-07-09 收录
下载链接:
https://github.com/whatheheckisthis/JP-Morgan-Project-Software-Engineering
下载链接
链接失效反馈官方服务:
资源简介:
Enron Corpus是一个大型数据库,包含超过60万封由Enron公司158名员工生成的电子邮件,这些邮件在公司破产调查期间被联邦能源监管委员会获取。该数据集结合了电子邮件和财务数据,存储在一个字典中,每个键对应一个人的名字,值是一个包含该人所有特征的字典。
The Enron Corpus is a large-scale database containing over 600,000 email messages generated by 158 employees of Enron Corporation, which were obtained by the Federal Energy Regulatory Commission during the company's bankruptcy investigation. This dataset combines email and financial data, and is stored in a dictionary where each key corresponds to a person's name, and the value is a dictionary containing all the characteristics of that individual.
创建时间:
2024-06-29
原始信息汇总
Enron-Email-Dataset
数据集概述
- 数据来源:Enron Corpus,包含超过60万封电子邮件,由Enron公司158名员工生成,由联邦能源监管委员会在公司破产调查期间获取。
- 数据版本:2015年5月7日版本。
- 数据格式:数据集以tarred和gzipped格式存储,可通过运行
startup.py文件自动下载和解压。
数据集内容
- 数据类型:结合了电子邮件和财务数据。
- 数据结构:数据存储在一个字典中,每个键是一个人的名字,值是一个包含该人所有特征的字典。
- 数据点数量:146个(人)。
- 特征数量:21个。
- 关键人物数量:18个(Person of Interest)。
- 总关键人物数量:35个(从
poi_names.txt文件中获取)。
数据查询示例
- James Prentice持有的股票总价值:1095040。
- Wesley Colwell发送给关键人物的电子邮件数量:11封。
- Jeffrey K Skilling行使的股票期权价值:19250000。
数据处理工具
- 辅助函数:
featureFormat()和targetFeatureSplit()函数,用于从数据字典中提取特征并返回numpy数组。
数据分析示例
- 初始分析:
My works/1.Dataset qtns/explore_enron_data_jn.ipynb。 - 回归分析:
My works/2.regression/finance_regression_jn.ipynb。 - 异常值处理:
My works/3.outliers。 - 特征缩放和聚类:
My works/4. KMeans clustering_feature_scaling。 - 文本学习:
My works/5. Text Learning。 - 特征选择:
My works/6. Feature Selection。 - PCA研究:
My works/7. PCA。 - 验证:
My works/8. Validation。 - 评估指标:
My works/9. Evaluation metrics。
搜集汇总
数据集介绍

构建方式
Enron Email Dataset的构建基于Enron公司员工在公司倒闭后由联邦能源监管委员会收集的超过60万封电子邮件。这些邮件由158名员工生成,构成了一个庞大的数据库。数据集的构建过程中,邮件和财务数据被整合成一个单一的数据集,每个员工的信息以字典形式存储,其中键为员工姓名,值为包含该员工所有特征的字典。数据集以pickle文件格式存储,便于直接加载和使用。
特点
Enron Email Dataset的特点在于其庞大的规模和丰富的信息内容。该数据集包含146个数据点,每个数据点对应一个员工,涵盖21个特征。此外,数据集还特别标注了18名关键人物(POI),这些人物在公司倒闭事件中具有重要地位。数据集的结构化存储方式和丰富的特征使其成为研究企业内部通信和财务行为的理想资源。
使用方法
使用Enron Email Dataset时,首先需克隆包含数据集的GitHub仓库,并运行`startup.py`文件以自动下载和解压数据集。数据集加载后,可通过`explore_enron_data.py`脚本进行初步探索。数据集的查询和分析可通过提供的辅助函数如`featureFormat()`和`targetFeatureSplit()`进行,这些函数能够将特征列表和数据字典转换为numpy数组,便于进一步的数据处理和分析。
背景与挑战
背景概述
Enron Email Dataset,源自Enron Corpus,是一个包含超过60万封电子邮件的大型数据库,由Enron公司158名员工在公司破产调查期间生成。该数据集于2015年5月7日由卡内基梅隆大学发布,并由联邦能源监管委员会在调查过程中获取。该数据集不仅包含了电子邮件信息,还整合了财务数据,形成了一个综合性的研究资源。其核心研究问题涉及电子邮件与财务数据的关联分析,旨在揭示企业内部通信与财务行为之间的关系,对金融欺诈检测和公司治理研究具有重要影响。
当前挑战
Enron Email Dataset在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,处理和分析这些数据需要高效的计算资源和算法。其次,数据集中的电子邮件内容复杂,包含大量非结构化文本,提取有价值的信息需要先进的自然语言处理技术。此外,数据集的隐私和安全问题也是一个重要挑战,如何在保护个人隐私的前提下进行研究是一个亟待解决的问题。最后,数据集的整合性要求高,确保电子邮件与财务数据之间的准确匹配和一致性是分析的关键。
常用场景
经典使用场景
Enron Email Dataset的经典使用场景主要集中在电子邮件数据的分析与挖掘。研究者们利用该数据集进行自然语言处理(NLP)任务,如情感分析、主题建模和文本分类,以揭示邮件内容中的潜在模式和关系。此外,该数据集也被广泛用于社交网络分析,通过构建员工间的通信网络,研究者可以识别关键人物和信息传播路径,从而深入理解组织内部的沟通结构和动态。
实际应用
Enron Email Dataset在实际应用中展现了广泛的价值。企业可以利用该数据集进行内部沟通分析,优化组织结构和信息流动,提高工作效率。法律和合规部门则可以借助该数据集进行电子发现(e-discovery),辅助调查和取证工作。此外,市场营销和客户关系管理领域也可利用该数据集进行客户沟通分析,提升服务质量和客户满意度。
衍生相关工作
Enron Email Dataset催生了众多相关研究和工作。在自然语言处理领域,基于该数据集的研究推动了情感分析、主题建模和文本分类等技术的发展。在社交网络分析方面,研究者们利用该数据集构建了复杂的通信网络模型,深入探讨了组织内部的沟通模式和信息流动。此外,该数据集还激发了对数据隐私和伦理问题的广泛讨论,促进了相关法律法规的完善和实施。
以上内容由遇见数据集搜集并总结生成



