Enron Dataset

github2018-06-20 更新2024-05-31 收录

下载链接：

https://github.com/garvitkhurana/Enron_dataset_poi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于Udacity机器学习课程的最终项目，旨在通过Enron公司破产事件中公开的财务和邮件数据，构建一个识别欺诈行为的模型。数据集包括了被指控、达成和解或作证的个人数据，以及相关的财务和邮件信息。

This dataset is designed for the final project of the Udacity Machine Learning course, aiming to construct a model for identifying fraudulent activities using publicly available financial and email data from the Enron bankruptcy case. The dataset includes data on individuals who were accused, settled, or testified, along with related financial and email information.

创建时间：

2018-06-12

原始信息汇总

数据集概述

数据集名称

Enron Dataset

数据集用途

用于Udacity机器学习课程的最终项目，旨在通过分析Enron公司的财务和电子邮件数据，构建一个识别欺诈行为的模型。

数据集内容

数据类型：
- 财务数据：包括工资、延期支付、总支付、贷款预支、奖金等。
- 电子邮件数据：包括收发邮件的数量、邮件地址等。
- POI标签：标识个人是否为调查中的“人物兴趣点”。
数据结构：
- 数据以字典形式存储，每个键值对代表一个人。键为人名，值为包含所有特征及其值的另一个字典。

数据集特征

财务特征：
- 包括salary, deferral_payments, total_payments, loan_advances, bonus, restricted_stock_deferred, deferred_income, total_stock_value, expenses, exercised_stock_options, other, long_term_incentive, restricted_stock, director_fees。
电子邮件特征：
- 包括to_messages, email_address, from_poi_to_this_person, from_messages, from_this_person_to_poi, poi, shared_receipt_with_poi。
POI标签：
- 包括poi（布尔型，表示为整数）。

数据集使用指南

资源需求：
- 需要Python和sklearn环境，以及项目启动代码和数据集。
使用步骤：
- 使用提供的启动代码读取数据，选择特征，将其转换为numpy数组。
- 设计特征，选择并调整算法，进行测试和评估。
- 提交包括文档和三个pickle文件（数据集、分类器、特征列表）。

数据集背景信息

财务数据来源：来自enron61702insiderpay.pdf。
电子邮件数据来源：来自Enron电子邮件语料库。
数据处理：当特征值未知时，标记为"NaN"，转换为numpy数组时默认转换为0。

搜集汇总

数据集介绍

构建方式

Enron Dataset是由美国安然公司电子邮件和财务数据构成的集合，旨在用于机器学习课程中的项目实践。数据集通过整合安然公司破产期间公开的数以万计的电子邮件和高层管理人员的详细财务数据构建而成。其中，每一数据条目为一个字典，键为个人姓名，值为包含所有特征名称及其对应值的另一个字典。

特点

该数据集的特点在于其多维度的特征，涵盖财务数据、电子邮件数据以及标记为重要人物的标签。财务特征包括薪资、延期支付、总支付等；电子邮件特征包括发送给特定人员的邮件数量、电子邮件地址等；此外，还包括是否为重要人物的标签。数据集的处理还包括对缺失值的默认填充，以0代替'NaN'。

使用方法

使用Enron Dataset时，首先需要确保计算机上安装有Python和sklearn库。用户可以从提供的基础代码开始，通过选择和调整特征，进而利用机器学习算法对数据集进行分析。最终，用户需创建三个pickle文件，包括数据集、分类器和特征列表，并将这些文件提交给Udacity教练，以验证算法的性能和参数。

背景与挑战

背景概述

Enron Dataset，即恩隆数据集，是在2000年至2002年期间，美国能源公司恩隆因大规模企业欺诈而破产的法律调查中公开的众多机密信息之一。该数据集包含了数万封电子邮件和高层管理人员的详细财务数据。本项目由Udacity机器学习课程的学生完成，旨在构建一个基于电子邮件和财务数据的人物特征识别器，以识别恩隆丑闻中的关键人物。该数据集的研究背景源于对恩隆欺诈案的调查，研究人员通过结合公开的电子邮件和财务数据，以及一个手动生成的关系人名单，来分析并识别案件中的关键人物。

当前挑战

该数据集在研究领域中面临的挑战主要包括：首先，数据集包含了大量的缺失值，这给数据的预处理和分析带来了挑战；其次，如何从大量的电子邮件和财务数据中提取有效的特征，以及选择和调整合适的算法，是构建有效人物特征识别器的重要挑战；最后，由于数据集的特殊性质，即涉及敏感信息和法律问题，因此在实际应用中需要特别考虑隐私保护和合规性问题。

常用场景

经典使用场景

在机器学习与数据分析领域，Enron数据集被广泛用于构建和评估人物特征识别模型。该数据集最经典的使用场景在于，通过分析个人的财务记录和电子邮件通信记录，来预测该个人是否为涉及欺诈的特定兴趣对象（Person of Interest，POI）。通过挖掘这些数据，研究人员可以构建模型以自动识别潜在的不当行为模式。

解决学术问题

Enron数据集解决了在现实世界中，如何从大量非结构化和结构化数据中提取有效信息，用于学术研究的问题。它为研究人员提供了一个机会，以探索和应用各种数据预处理、特征工程、以及机器学习算法，进而对复杂的数据集进行分类和预测，对于理解公司欺诈行为、评估个人行为模式具有重要意义。

衍生相关工作

基于Enron数据集的研究衍生出了许多相关工作，如改进的特征选择方法、更加复杂的模型构建策略以及针对不同类型欺诈行为的预测模型。这些研究不仅推动了机器学习技术在金融领域中的应用，也为法律和商业伦理领域提供了新的分析工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集