Enron dataset

github2017-06-28 更新2024-05-31 收录

下载链接：

https://github.com/curiousmind2016/ML-Enron-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Enron数据集包含146条记录，其中1个标记特征（POI），14个财务特征和6个电子邮件特征。POI特征的真/假值指示个人是否为POI或非POI。数据集共有21个特征，其中18个POI和128个非POI。部分特征存在缺失值，表示为NaN。POI不能为NaN。

The Enron dataset comprises 146 records, featuring one labeled attribute (POI), 14 financial attributes, and 6 email attributes. The true/false value of the POI attribute indicates whether an individual is a POI or non-POI. The dataset includes a total of 21 attributes, with 18 POIs and 128 non-POIs. Some attributes contain missing values, denoted as NaN. The POI attribute cannot be NaN.

创建时间：

2017-02-10

原始信息汇总

数据集概述

数据集名称

Enron数据集

数据集背景

该数据集源自2000年曾是美国最大公司之一的Enron，在2002年因广泛的公司欺诈而破产。联邦调查中，大量通常保密的邮件和顶级执行官的详细财务数据被公开。

数据集内容

记录数：146条
特征数：21个
- 1个标签特征（POI）
- 14个财务特征
- 6个邮件特征
特征详情：
- POI特征为布尔值（True/False），表示个体是否为POI（Person of Interest）。
- 部分特征包含缺失值，表示为NaN。

数据集应用

用于构建一个基于财务和邮件数据的POI标识模型，以识别在Enron欺诈案中的关键人物。

数据集特点

包含真实世界的不完美数据，适用于机器学习模型的训练和验证。

数据集使用目的

通过机器学习技术，学习POI和非POI的邮件习惯，发现邮件模式，并测试预测模型以识别个体是否为POI。

搜集汇总

数据集介绍

构建方式

Enron数据集的构建基于2000年美国大型公司Enron破产丑闻期间公开的财务和电子邮件数据。该数据集涵盖了大量高层管理人员的详细财务信息和数万封电子邮件，并由人工标注了哪些个体是被调查的重点对象（POI）。数据集共包含146条记录，其中包含1个标签特征（POI），14个财务特征和6个电子邮件特征，总计21个特征。构建过程中，对数据进行了清洗，处理了缺失值，并确保POI标签不得为'NaN'。

特点

Enron数据集的特点在于其实际性和完整性。它不仅提供了丰富的财务数据，还包括电子邮件通信信息，这对于分析个体的行为模式至关重要。数据集中，有18个POI和128个非POI，这使得数据集在分类任务中具有均衡的分布。同时，部分特征的缺失值处理，增加了数据集的现实性和挑战性，便于研究者在真实世界的数据环境中进行机器学习模型的训练和测试。

使用方法

使用Enron数据集时，研究者可以首先对数据集进行探索性分析，以理解各个特征的分布和相关性。随后，可以利用数据集中的财务和电子邮件特征来训练机器学习模型，旨在预测一个个体是否为POI。此外，研究者应采用定量指标评估模型性能，并对模型进行调整以优化预测效果。数据集的公开文件还包括了一份最终项目报告，为使用该数据集提供了详细的指导和参考。

背景与挑战

背景概述

Enron数据集是在2000年美国安然公司因大规模企业欺诈而破产的背景下创建的。该数据集由联邦调查公开的大量机密信息构成，包括数以万计的电子邮件和高层管理人员的详细财务数据。研究人员利用这些数据，旨在构建一个能够识别出特定人物是否为调查关注的对象（Person of Interest，POI）的预测模型。该数据集为机器学习领域提供了一个重要的实践案例，对理解和应用机器学习算法于现实世界问题具有显著影响。

当前挑战

在构建Enron数据集的过程中，研究人员面临了诸多挑战。首先，数据集的不完整性是一个重要问题，其中一些特征值缺失，并以'NaN'表示。其次，如何准确识别和定义POI的特征，以及处理和转换特征以适应机器学习算法的需要，也是研究过程中的一大挑战。此外，选择和调整合适的机器学习算法以实现最大化的性能，同时清晰传达算法结果，也是研究过程中必须克服的难题。

常用场景

经典使用场景

在探究机器学习在现实世界数据中的应用，Enron数据集提供了一个极具价值的案例。该数据集被广泛用于构建预测模型，旨在识别个人是否为‘重点关注对象（POI）’。经典的使用场景在于，研究者通过分析电子邮件习惯，挖掘POI和非POI之间的模式差异，进而对预测模型进行测试，以判断某个个体是否属于POI。

解决学术问题

Enron数据集解决了在现实世界数据中处理缺失值、异常值和噪声等问题的学术挑战。它为研究者提供了一个含有真实财务和电子邮件数据的实验环境，有助于验证机器学习结果的准确性，评估性能指标，以及优化算法。该数据集对特征工程、算法选择和调整等机器学习关键环节的研究具有重要意义。

衍生相关工作

Enron数据集的开放使用催生了大量相关研究，涉及机器学习的各个方面，包括特征选择、模型评估和算法比较等。这些研究不仅推动了机器学习领域的发展，也为其他涉及异常检测和预测的领域提供了借鉴，如金融欺诈检测、网络安全等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集