Enron-Dataset

github2021-07-31 更新2024-05-31 收录

下载链接：

https://github.com/rahulpatraiitkgp/Identifying-Fraud-from-the-Enron-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于识别Enron公司中的欺诈行为，包含146个人的财务和邮件数据，其中18个人被标记为有兴趣的人（POI）。数据集的目的是通过机器学习方法识别可能的欺诈行为，特别是通过分析财务特征和邮件交流。

This dataset is utilized for identifying fraudulent activities within Enron Corporation, encompassing financial and email data from 146 individuals, among whom 18 are flagged as persons of interest (POI). The objective of the dataset is to discern potential fraudulent behaviors through machine learning methodologies, particularly by analyzing financial attributes and email communications.

创建时间：

2017-06-25

原始信息汇总

数据集概述

数据集目标

本项目旨在通过机器学习技术识别Enron数据集中的欺诈行为，特别是那些通过不正当手段操纵财务数据的个人。目标是利用财务特征和电子邮件数据来识别潜在的欺诈者。

数据集描述

数据集大小：包含146个人的数据，其中18人为已知的欺诈者（实际有35人）。
数据缺失：由于电子邮件数据仅为样本，存在部分欺诈者数据缺失，可能影响预测准确性。
数据特征：数据集包含21个特征，主要涉及财务信息和电子邮件交互。

数据处理

异常值处理：数据集中存在一个名为TOTAL的异常值，代表所有人的财务特征总和，已被排除。
缺失值处理：部分财务特征存在缺失值，考虑手动添加或使用NaN标记，但需注意这可能影响机器学习模型的预测。

特征工程

新特征添加：添加了如“向欺诈者发送邮件的频率”和“从欺诈者接收邮件的频率”等新特征，以增强模型的识别能力。
特征选择：使用SelectPercentile方法，基于21%的百分位数选择特征，以最大化F1分数。

模型选择与调优

最终算法：选择使用GaussianNB算法，因其默认性能最佳。
参数调优：使用GridSearchCV进行参数调优，重点关注学习率和惩罚项（l2）。

模型验证

验证策略：使用StratifiedShuffleSplit进行数据集的划分，确保训练集和测试集的标签分布一致。
评估指标：使用精确度和召回率作为评估指标，以评估模型在识别欺诈者方面的性能。

性能评估

精确度：0.36853
召回率：0.35950

这些指标表明模型在识别欺诈者方面表现良好，能够有效地从数据中识别出潜在的欺诈行为。

搜集汇总

数据集介绍

构建方式

Enron-Dataset的构建基于安然公司丑闻事件中的财务数据和电子邮件数据。该数据集包含了146名员工的信息，其中18人为重点关注对象（POI），尽管实际POI人数为35人。数据集通过整合财务特征和电子邮件样本，旨在通过机器学习算法识别潜在的欺诈行为。由于数据集中存在缺失值，特别是财务特征，研究者通过手动补充部分缺失数据，并保留了部分缺失值以避免模型过度依赖‘NaN’值进行预测。

使用方法

使用Enron-Dataset时，首先需对数据进行预处理，包括处理缺失值和异常值。随后，可以通过特征工程创建新的特征，如计算某人与POI之间的电子邮件往来比例。特征选择可采用SelectPercentile等方法，结合模型如Gaussian Naive Bayes或SGDClassifier进行训练。最终，通过交叉验证和F1评分等指标评估模型性能，确保模型在识别POI时的准确性和召回率。

背景与挑战

背景概述

Enron-Dataset是由Rahul Patra在Udacity数据分析师纳米学位项目中创建的，旨在通过机器学习技术识别安然公司中的欺诈行为。该数据集包含了146名员工的财务数据和电子邮件样本，其中18人是已知的欺诈者（实际有35人）。数据集的核心研究问题是识别潜在的欺诈者，特别是通过分析财务特征和电子邮件内容来判断某人是否为欺诈者。该数据集的创建对金融欺诈检测领域具有重要意义，尤其是在利用机器学习进行异常行为识别方面。

当前挑战

Enron-Dataset在构建和应用过程中面临多项挑战。首先，数据集中存在大量缺失值，尤其是在财务特征中，这可能导致模型对缺失值的过度依赖，从而影响预测准确性。其次，数据集中仅包含部分已知的欺诈者，这使得模型的泛化能力受到限制。此外，数据集中的异常值（如'TOTAL'）需要被识别和处理，以避免对模型产生误导。最后，特征选择和工程化也是一个重要挑战，如何从众多特征中筛选出最有效的特征，并创建新的特征以提高模型性能，是该数据集应用中的关键问题。

常用场景

经典使用场景

Enron-Dataset的经典使用场景主要集中在通过机器学习技术识别企业内部的可疑行为者，尤其是那些涉嫌欺诈的员工。该数据集结合了财务数据和电子邮件通信记录，能够帮助研究人员构建模型，以预测潜在的欺诈行为。通过分析员工的财务特征和电子邮件往来，模型可以识别出那些与欺诈行为高度相关的个体，从而为企业的内部审计和风险管理提供有力支持。

解决学术问题

Enron-Dataset解决了企业内部欺诈检测中的关键学术问题，尤其是在数据不完整和特征缺失的情况下，如何有效识别潜在的欺诈行为。该数据集通过提供丰富的财务和通信数据，帮助研究人员开发和验证机器学习模型，从而提高欺诈检测的准确性和可靠性。这一研究不仅推动了数据科学在企业应用中的发展，还为学术界提供了宝贵的实证数据，促进了相关领域的理论研究。

实际应用

Enron-Dataset在实际应用中具有广泛的潜力，尤其是在企业内部审计和风险管理领域。通过分析员工的财务行为和电子邮件通信，企业可以识别出潜在的欺诈行为，从而采取预防措施，减少财务损失。此外，该数据集还可以用于培训和验证欺诈检测算法，帮助金融机构和监管机构提高其风险管理能力。通过这些实际应用，Enron-Dataset为企业的合规性和风险控制提供了重要的技术支持。

数据集最近研究