five

Enron dataset

收藏
github2017-11-16 更新2024-05-31 收录
下载链接:
https://github.com/thiduck/Fraud-identification-using-ML---Enron-email-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含146个数据点,每个数据点有21个特征,这些特征是从电子邮件中提取的。数据集用于通过机器学习算法识别欺诈和重点关注人员。

This dataset comprises 146 data points, each characterized by 21 features extracted from emails. It is utilized for identifying fraud and individuals of interest through machine learning algorithms.
创建时间:
2016-12-26
原始信息汇总

数据集概述

数据集目标

本项目旨在使用Python的sk-learn库中的机器学习算法,从Enron数据集中识别出关键人物(POIs)。

数据集特征

  • 数据点数量:146个
  • 特征数量:21个
  • 数据来源:从电子邮件中提取

项目要求

  • 精度与召回率:大于等于0.3

数据处理步骤

  1. 数据理解和清洗
  2. 移除异常值
  3. 特征优化与选择
  4. 特征工程
  5. 特征缩放
  6. 算法选择
  7. 参数调优

使用的算法

  1. 极端随机树分类器
  2. 逻辑回归
  3. 线性支持向量机

特征选择方法

  • 树基特征选择
  • Select-K-Best

参数调优

  • 极端随机树分类器:n_estimators, criterion, min_sample_split
  • 逻辑回归:max_iter, penalty, solver, fit_intercept
  • 线性支持向量机:loss, max_iter, tolerance, multi_class

验证方法

  • 使用分层随机分割进行数据分割
  • 尝试了多种交叉验证方法,最终选择分层随机分割以处理POIs和非POIs的不均匀分布

附加项目

  • 对Enron数据集中的电子邮件正文进行文本分类
  • 使用Count Vectorizer和TfIdf Transformer
  • 在POIs与非POIs比例为1:1时达到50%的准确率,比例为1:3时准确率为25%,超过30个数据点时无法收敛,准确率为0%

相关文件

  • 完整报告:report.pdf
  • 测试结果:Enron Dataset - ML results.pdf
搜集汇总
数据集介绍
main_image_url
构建方式
Enron数据集的构建始于对电子邮件数据的深入理解与清洗,进而去除异常值,优化特征,并进行特征选择与工程。数据经过标准化处理后,利用多种机器学习算法进行模型训练,如Extra Trees分类器、逻辑回归和线性SVM。在特征选择方面,通过对比树基特征选择与Select-K-Best方法,最终选择了后者以获得更优的精确度和准确度。
特点
该数据集的特点在于其包含了146个数据点,每个数据点具有21个特征,均源自电子邮件内容。数据集的目标是二分类问题,即判断一个给定的人是否为感兴趣的人(Person of Interest,POI)。数据集中POI和非POI的分布不均,因此在模型训练和验证时采用了分层随机划分方法,以确保分类的有效性。
使用方法
使用该数据集时,用户需首先理解数据集的构成和特征,然后根据项目需求选择合适的机器学习算法和参数。数据集提供了多种验证结果的指标,用户可以通过交叉验证等技术来评估模型的性能。此外,数据集还支持基于文本的分类挖掘,用户可以使用Count-Vectorizer和TfIdf Transformer对电子邮件正文进行文本分类,但需注意数据分布的偏斜可能影响分类的准确性。
背景与挑战
背景概述
Enron数据集源于对安然公司电子邮件的深入分析,该数据集的构建旨在支持机器学习算法的应用,以识别潜在的利益相关者(Persons of Interest,简称POIs)。该数据集的创建时间为安然丑闻之后,主要研究人员为应对企业欺诈行为而开展相关研究的学者。数据集包含了146个数据点,每个数据点具有21个特征,这些特征从电子邮件中提取。Enron数据集在机器学习领域,尤其是在异常检测和欺诈识别研究中具有重要的影响力,为学术界和工业界提供了一个共同的研究平台。
当前挑战
Enron数据集的研究挑战主要表现在两个方面:一是领域问题的挑战,即如何准确识别出利益相关者,这需要解决分类算法的精度和召回率问题;二是数据集构建过程中的挑战,包括数据清洗、异常值移除、特征优化选择和特征工程等步骤。具体而言,算法的选择和参数调优是核心挑战之一,例如,采用Extra Trees分类器、逻辑回归和线性支持向量机等算法时,需进行参数的细致调整以获得最佳的预测性能。此外,文本数据的不平衡分布也对分类算法的准确性和泛化能力提出了挑战。
常用场景
经典使用场景
在当前研究领域,Enron数据集被广泛用于检验机器学习算法在识别利益相关者(POIs)方面的有效性。该数据集通过电子邮件通信中的21个特征,对146个数据点进行了详细标注,成为研究邮件数据中潜在欺诈行为的经典案例。
解决学术问题
Enron数据集解决了如何利用机器学习技术,从大量电子邮件数据中准确识别出利益相关者这一学术难题。这对于学术研究中分析个体在大型组织中的角色与行为模式,以及预防金融欺诈行为具有重要的理论与实际价值。
衍生相关工作
基于Enron数据集的研究衍生出了众多相关工作,如文本挖掘分析、情感分析、以及更复杂的网络分析等,这些研究不仅拓展了数据集的应用范围,也为机器学习在金融数据分析领域的深入应用提供了丰富的案例与理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作