kariatouk/enron_curated_labeled
收藏Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/kariatouk/enron_curated_labeled
下载链接
链接失效反馈官方服务:
资源简介:
Enron Email Dataset是一个包含来自Enron Corporation的电子邮件的数据集,Enron Corporation曾是美国最大的能源公司之一。该数据集广泛用于各种自然语言处理(NLP)任务,如电子邮件分类、情感分析和命名实体识别。处理后的数据集名为enron_processed.zip,是原始数据集的清洗和去重版本,减少了重复邮件并进行了数据清理。分析结果存储在results.zip文件中,包括与欺诈相关的关键主题和1000条随机选择的记录,每条记录包含一个欺诈内容评分。标记数据集名为enron_labeled.zip,包含手动标注的欺诈信息。
Enron Email Dataset是一个包含来自Enron Corporation的电子邮件的数据集,Enron Corporation曾是美国最大的能源公司之一。该数据集广泛用于各种自然语言处理(NLP)任务,如电子邮件分类、情感分析和命名实体识别。处理后的数据集名为enron_processed.zip,是原始数据集的清洗和去重版本,减少了重复邮件并进行了数据清理。分析结果存储在results.zip文件中,包括与欺诈相关的关键主题和1000条随机选择的记录,每条记录包含一个欺诈内容评分。标记数据集名为enron_labeled.zip,包含手动标注的欺诈信息。
提供机构:
kariatouk
原始信息汇总
数据集概述
数据集名称
- Enron Email Dataset
数据集大小
- 3GB
邮件数量
- 250,000 邮件,由原始的500,000邮件减少而来
语言
- 英语
许可证
- Apache 2.0
数据集来源
- Kaggle
数据集版本
- enron_processed.zip:经过清理和去重处理的版本,以CSV格式提供,适合使用Python的pandas库加载。
- results.zip:包含对Enron Email Dataset的分析结果,包括关键的欺诈相关主题和1000个随机选择的记录。每个记录包含一个欺诈内容评分,范围从0到10。
- enron_labeled.zip:手动标记的版本,用于检测欺诈实例,包括每个邮件是否被分类为欺诈的额外注释。
数据集用途
- 用于各种自然语言处理任务,如邮件分类、情感分析和命名实体识别。
- 用于研究和分析目的,特别是关于欺诈检测的研究。
注意事项
- 处理过的数据集可能不包含所有原始数据集中的邮件。
- 分析结果基于特定的分析方法,可能不捕捉到数据集中所有的欺诈实例。
- 标记过程是主观的,可能不准确捕捉所有欺诈实例。建议使用其他方法或数据集验证结果。



