five

mail

收藏
Hugging Face2025-12-10 更新2025-12-11 收录
下载链接:
https://huggingface.co/datasets/enronarchive/mail
下载链接
链接失效反馈
官方服务:
资源简介:
Enron Email数据集是Enron公司邮件的组织化集合,包含151个员工邮箱的完整邮件历史和附件。数据集提供了伪登录系统、文件夹导航、完整邮件查看(包括标题、正文和附件)、附件下载支持等功能。界面设计还原了2001年中期Enron的网络形象,是一个纯HTML、CSS和JavaScript的静态网站。数据集还包括全文搜索、键盘快捷键、邮件管理(如已读/未读标记、星标邮件)等增强功能。作为Enron Archive的一部分,该数据集在公共领域发布。
创建时间:
2025-12-10
原始信息汇总

Enron Email 数据集概述

数据集基本信息

  • 数据集名称:Enron Email
  • 数据集描述:安然公司电子邮件数据集的一个可访问且有组织的副本,属于 Enron Archive 的一部分。
  • 在线镜像:https://mail.enroncorp.com

核心内容与规模

  • 覆盖范围:包含 151 个员工邮箱 的完整电子邮件历史记录及附件。
  • 数据格式:邮件数据以 JSON 格式组织,附件以原始文件形式存储。

数据结构与组织

  • 根目录 (mail/)
    • mailbox-app.js:主应用程序逻辑文件。
    • index.html:邮箱查看器界面。
    • mailbox-viewer.html:电子邮件详情视图。
    • [user-folders]/:151 个用户邮箱目录。
      • mailbox.json:电子邮件元数据及文件夹结构。
      • mailbox_part_*.json:大型邮箱(>50MB)的拆分文件。
      • attachments/:按电子邮件 ID 组织的邮件附件。
  • 资源目录 (src/)
    • mail.css:邮箱样式文件。
    • [images]:UI 资源(按钮、图标、间隔符)。
  • 其他页面
    • index.html:登录页面。
    • search.html:综合搜索页面。
    • legal.html:法律声明页面。

功能特性

  • 邮箱浏览:支持伪登录系统,可浏览任意账户;提供收件箱、已发送邮件及用户自定义文件夹的导航。
  • 邮件查看:支持查看完整的电子邮件,包括邮件头、正文和附件。
  • 附件支持:可下载电子邮件中的原始附件文件。
  • 搜索功能:提供在邮件主题、发件人和内容中进行全文搜索。
  • 邮件管理
    • 读/未读状态跟踪(通过蓝色/灰色圆点标识,状态跨会话持久化)。
    • 星标/收藏系统(通过 ★/☆ 图标标识,状态跨会话持久化)。
    • 支持按日期、发件人或主题排序。
  • 用户界面:采用响应式设计,匹配安然公司 2001 年中的网络形象,使用橙色(#ff9900)作为品牌色。

有效账户列表

数据集包含 151 个有效账户,例如:allen-p, arnold-j, arora-h, badeer-r, bailey-s, ... , zipper-a, zufferli-j。(完整列表见 README 文件)

许可证信息

该数据集属于公共领域,因其由美国联邦能源监管委员会(FERC)在法律诉讼过程中发布。

搜集汇总
数据集介绍
main_image_url
构建方式
作为企业通信历史研究的重要资源,Enron Email数据集源自安然公司内部邮件系统的真实记录。该数据集通过法律程序由美国联邦能源监管委员会公开披露,随后由Enron Archive项目进行系统化整理与数字化保存。构建过程中,技术团队将原始邮件数据转换为结构化格式,完整保留了151名员工的邮箱内容,包括邮件正文、元数据及附件文件,并以静态网站形式呈现,确保了数据的可访问性与完整性。
特点
该数据集的核心特征体现在其高度还原的企业邮件生态模拟。它不仅提供了完整的邮件历史与附件支持,还通过伪登录系统、文件夹导航及全文搜索等功能,再现了企业邮件管理的实际场景。性能优化方面,采用并行JSON加载与文件夹缓存技术,大幅提升了数据检索效率;同时,数据集支持邮件状态标记、星标收藏等交互功能,并通过响应式设计与UTF-8编码确保了跨平台兼容性与字符渲染的准确性。
使用方法
研究人员可通过访问在线镜像站点直接浏览数据集内容,无需本地服务器部署。使用时可选择特定员工邮箱登录,利用文件夹分类与全文搜索功能定位目标邮件;邮件阅读界面支持查看完整头部信息、正文及附件下载。交互功能允许用户标记邮件状态或添加星标,这些操作通过本地存储实现跨会话持久化。对于批量分析需求,可直接访问底层的JSON元数据文件进行程序化处理,以支持自然语言处理或社会网络分析等研究任务。
背景与挑战
背景概述
安然邮件数据集源于21世纪初美国安然公司破产事件后公开的内部通信记录,由联邦能源监管委员会在司法程序中披露,并由安然档案馆整理维护。该数据集收录了151名员工的完整邮箱历史,包括邮件正文、附件及元数据,自2000年代初以来已成为企业通信分析、欺诈检测与组织行为研究的关键语料库。其创建旨在永久保存这家能源巨头在崩溃前的运营痕迹,为法学、社会学及计算语言学领域提供了罕见的真实企业通信全景,深刻影响了白领犯罪研究、社交网络分析与自然语言处理任务的发展。
当前挑战
安然邮件数据集所解决的核心领域问题在于企业环境下的异常行为检测与通信模式挖掘,其挑战包括从非结构化文本中识别欺诈暗示、在庞大邮件网络中提取有效社交图谱,以及处理高度敏感且法律背景复杂的语料所带来的伦理约束。构建过程中的挑战则体现于原始数据的混乱状态:邮件格式不一、附件类型繁杂、元数据缺失严重,需通过技术手段实现数据清洗、结构化转换与隐私脱敏,同时确保历史真实性;此外,设计可扩展的存储架构以处理超50MB的大型邮箱,并实现高效检索与可视化交互,亦是数据集工程化的关键难点。
常用场景
经典使用场景
在组织行为学与信息管理领域,Enron Email数据集常被用于分析企业内部通信模式。研究者通过解析151名员工的邮箱历史,包括收件箱、已发送邮件及自定义文件夹,能够深入探究邮件往来中的社会网络结构、信息流动路径以及协作动态。该数据集支持全文检索与附件下载,为大规模企业通信的实证研究提供了丰富素材,尤其在揭示非正式沟通渠道与决策过程方面具有独特价值。
衍生相关工作
围绕该数据集衍生了多项经典研究工作。在计算社会科学领域,学者构建了Enron社交网络图谱,分析了权力结构与信息传播模式。自然语言处理研究则聚焦于邮件主题建模、作者身份识别及欺诈检测算法开发。此外,该数据集催生了多个公开基准测试,如Enron-Spam分类任务,推动了邮件安全与隐私保护技术的创新,并成为多模态数据分析的重要参考源。
数据集最近研究
最新研究方向
在商业通信与组织行为学领域,安然邮件数据集作为企业级电子邮件通信的珍贵历史档案,持续推动着前沿研究的深化。当前研究焦点集中于利用自然语言处理与复杂网络分析技术,挖掘邮件中的语义模式与社交网络结构,以揭示企业内部沟通动态、权力关系演变及危机预警信号。结合机器学习方法,学者们正探索异常检测模型,旨在从大规模非结构化文本中识别欺诈行为与合规风险,这为金融监管与公司治理提供了实证基础。此外,数据集的可视化与交互式访问优化,如本版本实现的并行加载与实时搜索功能,促进了跨学科研究的数据可及性,使历史档案在数字人文与计算社会科学中焕发新生。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作