five

kariatouk/enron_curated_labeled

收藏
Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/kariatouk/enron_curated_labeled
下载链接
链接失效反馈
官方服务:
资源简介:
Enron Email Dataset是一个包含来自Enron Corporation的电子邮件的数据集,Enron Corporation曾是美国最大的能源公司之一。该数据集广泛用于各种自然语言处理(NLP)任务,如电子邮件分类、情感分析和命名实体识别。处理后的数据集名为enron_processed.zip,是原始数据集的清洗和去重版本,减少了重复邮件并进行了数据清理。分析结果存储在results.zip文件中,包括与欺诈相关的关键主题和1000条随机选择的记录,每条记录包含一个欺诈内容评分。标记数据集名为enron_labeled.zip,包含手动标注的欺诈信息。

Enron Email Dataset是一个包含来自Enron Corporation的电子邮件的数据集,Enron Corporation曾是美国最大的能源公司之一。该数据集广泛用于各种自然语言处理(NLP)任务,如电子邮件分类、情感分析和命名实体识别。处理后的数据集名为enron_processed.zip,是原始数据集的清洗和去重版本,减少了重复邮件并进行了数据清理。分析结果存储在results.zip文件中,包括与欺诈相关的关键主题和1000条随机选择的记录,每条记录包含一个欺诈内容评分。标记数据集名为enron_labeled.zip,包含手动标注的欺诈信息。
提供机构:
kariatouk
原始信息汇总

数据集概述

数据集名称

  • Enron Email Dataset

数据集大小

  • 3GB

邮件数量

  • 250,000 邮件,由原始的500,000邮件减少而来

语言

  • 英语

许可证

  • Apache 2.0

数据集来源

  • Kaggle

数据集版本

  • enron_processed.zip:经过清理和去重处理的版本,以CSV格式提供,适合使用Python的pandas库加载。
  • results.zip:包含对Enron Email Dataset的分析结果,包括关键的欺诈相关主题和1000个随机选择的记录。每个记录包含一个欺诈内容评分,范围从0到10。
  • enron_labeled.zip:手动标记的版本,用于检测欺诈实例,包括每个邮件是否被分类为欺诈的额外注释。

数据集用途

  • 用于各种自然语言处理任务,如邮件分类、情感分析和命名实体识别。
  • 用于研究和分析目的,特别是关于欺诈检测的研究。

注意事项

  • 处理过的数据集可能不包含所有原始数据集中的邮件。
  • 分析结果基于特定的分析方法,可能不捕捉到数据集中所有的欺诈实例。
  • 标记过程是主观的,可能不准确捕捉所有欺诈实例。建议使用其他方法或数据集验证结果。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作