Enron Dataset
收藏github2024-03-13 更新2024-05-31 收录
下载链接:
https://github.com/DariaAlekseeva/Enron_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
在2000年,安然公司是美国最大的公司之一。到2002年,由于广泛的 corporate fraud,它已经破产。在随后的联邦调查中,有大量的通常是机密的信息被公开记录,包括数万封电子邮件和顶级高管的详细财务数据。在这个项目中,你将扮演侦探,使用公开的安然丑闻中的财务和电子邮件数据,以及一个手工生成的欺诈案件中的关键人物列表,来建立一个关键人物标识符。
In the year 2000, Enron Corporation stood as one of the largest companies in the United States. By 2002, it had declared bankruptcy due to widespread corporate fraud. During the subsequent federal investigation, a vast amount of typically confidential information was made public, including tens of thousands of emails and detailed financial data of top executives. In this project, you will assume the role of a detective, utilizing the financial and email data from the publicly available Enron scandal, along with a manually compiled list of key figures involved in the fraud case, to develop a key person identifier.
创建时间:
2015-02-26
原始信息汇总
Enron Dataset 概述
数据集描述
- 项目背景:Enron 公司在2000年是美国最大的公司之一,2002年因广泛的公司欺诈而破产。联邦调查中公开了大量通常保密的邮件和高级财务数据。
- 项目目标:构建一个基于公开的财务和邮件数据的人员兴趣标识器(POI Identifier)。
- 数据来源:包括Enron邮件和财务数据,以及手工生成的欺诈案件中的人员兴趣列表。
数据集内容
- 数据结构:数据集以字典形式组织,每个键值对代表一个人,键为姓名,值为包含所有特征及其值的另一个字典。
- 特征类型:
- 财务特征:包括工资、延期支付、总支付、贷款预付款、奖金等,单位为美元。
- 邮件特征:包括发送和接收的邮件数量、与POI共享的收据等,单位通常为邮件数量。
- POI标签:布尔型,表示是否为POI。
数据集使用
- 资源需求:需要Python和sklearn环境,以及项目启动代码和数据集。
- 项目步骤:
- 使用提供的启动代码读取数据,选择特征,将其转换为numpy数组。
- 工程化特征,选择和调整算法,测试并评估标识器。
- 提交包括数据集、分类器和特征列表的pickle文件。
数据集细节
- 数据预处理:已将Enron的邮件和财务数据合并为一个字典。
- 特征处理:鼓励从现有特征中创建、转换或重新缩放新特征,并存储在数据集中。
- 数据源和约定:
- 财务数据:来自enron61702insiderpay.pdf。
- 邮件数据:来自Enron邮件语料库,已在课程设置过程中下载并解压缩。
- 数据缺失处理:当特征值未知时,显示为"NaN",转换为numpy数组时默认为0。
搜集汇总
数据集介绍

构建方式
Enron数据集的构建源于2002年Enron公司因大规模财务欺诈而破产的联邦调查。调查过程中,大量通常保密的公司内部信息被公开,包括数万封电子邮件和高管财务数据。数据集通过将这些公开的电子邮件和财务数据与手工生成的利益相关者名单相结合,形成了一个包含财务特征、电子邮件特征和利益相关者标签的字典结构。每个字典键代表一个人的姓名,值则包含该人的所有特征及其对应值。
特点
Enron数据集的特点在于其多维度的特征表示,涵盖了财务、电子邮件和利益相关者标签三大类。财务特征包括工资、奖金、股票价值等,单位为美元;电子邮件特征则记录了邮件往来数量以及与已知利益相关者的邮件互动情况;利益相关者标签为布尔值,标识该人是否为案件中的利益相关者。数据集中的某些特征值可能缺失,缺失值以“NaN”表示,并在转换为numpy数组时默认替换为0。
使用方法
使用Enron数据集时,首先需通过提供的starter代码读取数据,并选择所需的特征。数据集以字典形式存储,每个键值对对应一个人的特征信息。用户可以通过特征工程、算法选择与调优等步骤,构建并测试利益相关者识别模型。最终,用户需生成三个pickle文件(my_dataset.pkl、my_classifier.pkl、my_feature_list.pkl),并提交给Udacity教练进行验证。此外,用户还可以通过emails_by_address目录进一步探索电子邮件数据,以创建更复杂的特征。
背景与挑战
背景概述
Enron数据集源于2001年安然公司(Enron Corporation)的财务丑闻事件,该公司曾是全球最大的能源交易商之一。由于大规模的公司欺诈行为,安然公司于2002年宣布破产,随后美国联邦调查局公开了大量原本保密的内部数据,包括数万封电子邮件和高管的详细财务信息。该数据集由Udacity机器学习课程团队整理,旨在为机器学习项目提供真实案例数据,特别是用于构建‘利益相关者’(Person of Interest, POI)识别模型。数据集结合了财务数据和电子邮件通信记录,为研究公司欺诈行为、电子邮件分析以及机器学习模型的应用提供了宝贵的资源。
当前挑战
Enron数据集在应用过程中面临多重挑战。首先,数据集中存在大量缺失值(NaN),这要求研究者在数据预处理阶段进行有效的缺失值处理,以避免模型性能下降。其次,数据的不平衡性显著,利益相关者(POI)与非利益相关者的比例悬殊,这可能导致分类模型倾向于预测多数类,从而影响识别效果。此外,数据集的构建过程中,如何从海量电子邮件和财务数据中提取有效特征,并确保这些特征能够准确反映个体的行为模式,也是一个技术难点。最后,由于数据涉及敏感信息,如何在保护隐私的前提下进行公开研究,也是该数据集使用中需要谨慎处理的问题。
常用场景
经典使用场景
Enron数据集在机器学习和数据挖掘领域中被广泛用于构建和测试人员兴趣点(POI)识别模型。该数据集包含了Enron公司高管的财务数据和电子邮件记录,研究者可以通过这些数据训练分类算法,识别出与欺诈案件相关的关键人物。这一场景不仅展示了数据科学在金融犯罪调查中的应用,还为学术界提供了丰富的实验材料。
实际应用
在实际应用中,Enron数据集被用于开发自动化工具,帮助金融机构和监管机构识别潜在的欺诈行为。通过分析高管的财务交易和电子邮件往来,这些工具能够快速定位可疑活动,并为调查提供有力支持。此外,该数据集还被用于培训数据科学家和机器学习工程师,提升他们在真实场景中处理复杂数据的能力。
衍生相关工作
基于Enron数据集,许多经典的研究工作得以展开。例如,研究者开发了多种特征选择方法和分类算法,用于提高POI识别的准确率。此外,该数据集还催生了一系列关于电子邮件网络分析和财务数据挖掘的研究,进一步拓展了其在社交网络分析和金融风险管理中的应用范围。这些工作不仅丰富了学术文献,还为相关领域的技术发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



