Yale-LILY/aeslc

Hugging Face2024-01-09 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Yale-LILY/aeslc

下载链接

链接失效反馈

资源简介：

AESLC数据集是一个包含Enron公司员工电子邮件的集合，主要用于电子邮件主题生成任务。数据集包含两个特征：邮件正文和邮件主题。数据集为单语种英语，主要包含美国英语。数据集分为训练集、验证集和测试集，分别包含14436、1960和1906个样本。

提供机构：

Yale-LILY

原始信息汇总

数据集概述

名称: AESLC: Annotated Enron Subject Line Corpus

语言: 英语（主要为en-US，有少数例外）

许可证: 未知

多语言性: 单语

大小: 10K<n<100K

源数据: 原始数据

任务类别: 摘要生成

标签:

基于方面的摘要
对话摘要
多文档摘要
电子邮件标题生成

数据集结构

数据实例

特征:
- email_body: 字符串类型，电子邮件正文文本。
- subject_line: 字符串类型，电子邮件主题文本。

数据分割

名称	训练	验证	测试
default	14436	1960	1906

数据集创建

注释

创建者: 众包
语言创建者: 发现

数据集信息

下载大小: 7948020字节
数据集大小: 14940684字节

引用信息

@inproceedings{zhang-tetreault-2019-email, title = "This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation", author = "Zhang, Rui and Tetreault, Joel", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1043", doi = "10.18653/v1/P19-1043", pages = "446--456", }

搜集汇总

数据集介绍

构建方式

在电子邮件自动摘要研究领域，AESLC数据集的构建体现了对真实商业通信文本的系统性整理。该数据集源自安然公司员工的电子邮件通信，通过筛选原始邮件内容，提取出邮件正文与对应主题行，形成结构化的文本对。构建过程中，原始邮件数据经过清洗与格式化处理，确保文本的完整性与一致性，最终划分为训练集、验证集和测试集，为模型训练与评估提供了标准化的数据基础。

特点

AESLC数据集的特点在于其专注于电子邮件主题行生成任务，提供了丰富的真实场景文本对。数据集规模适中，包含超过一万八千条样本，邮件正文与主题行均以英文呈现，语言风格多样，涵盖了商务沟通中的正式与非正式表达。数据字段简洁明确，仅包含邮件正文和主题行两个文本特征，便于直接应用于序列到序列的生成模型，同时数据分割合理，支持模型的训练、验证与测试全流程。

使用方法

在自然语言处理任务中，AESLC数据集主要用于电子邮件主题行生成的研究与应用。使用者可通过HuggingFace数据集库直接加载该数据集，利用其预定义的数据分割进行模型训练与评估。典型应用流程包括将邮件正文作为输入序列，主题行作为目标序列，构建基于Transformer的生成模型，如BART或T5，通过微调优化生成性能。数据集支持批量处理与迭代，便于集成到现代深度学习框架中，推动自动摘要技术的实践发展。

背景与挑战

背景概述

在自然语言处理领域，电子邮件主题行生成作为文本摘要任务的一个特定分支，旨在从冗长的邮件正文中提炼出简洁且信息丰富的主题行。AESLC（Annotated Enron Subject Line Corpus）数据集由Rui Zhang与Joel Tetreault等研究人员于2019年构建，其核心研究问题聚焦于如何自动生成准确反映邮件内容的主题行，以提升信息检索与处理的效率。该数据集基于著名的安然公司电子邮件语料库，通过众包标注方式构建，为电子邮件自动摘要研究提供了宝贵的真实世界数据资源，推动了对话摘要与多文档摘要等子领域的发展。

当前挑战

电子邮件主题行生成任务面临多重挑战。在领域问题层面，邮件正文往往包含复杂句式、专业术语及非正式表达，要求模型具备深层语义理解与关键信息抽取能力，同时需保持主题行的简洁性与准确性。构建过程中，数据来源的敏感性带来隐私保护难题，原始安然邮件涉及大量个人与商业信息，需经过细致脱敏处理；此外，众包标注的一致性难以保证，不同标注者对主题行重要性的判断可能存在偏差，影响数据质量与模型训练的稳定性。

常用场景

经典使用场景

在自然语言处理领域，电子邮件主题行生成任务因其独特的文本特性而备受关注。AESLC数据集作为该任务的代表性资源，其经典使用场景聚焦于训练和评估序列到序列模型，特别是针对电子邮件正文到主题行的自动生成。研究者利用该数据集构建端到端的神经网络架构，如基于Transformer的编码器-解码器模型，通过捕捉邮件正文的语义核心，生成简洁且信息丰富的主题行。这一过程不仅验证了模型在短文本摘要任务上的性能，还为探索电子邮件通信中的语言模式提供了实验基础。

衍生相关工作

围绕AESLC数据集，学术界衍生了一系列经典研究工作。原始论文《This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation》首次定义了电子邮件主题行生成任务，并建立了基线模型。后续研究扩展了该数据集的用途，例如探索基于强化学习的主题行优化方法，或将AESLC与其他摘要数据集结合进行多任务学习。这些工作不仅深化了对电子邮件摘要技术的理解，还促进了预训练语言模型（如BART、T5）在特定领域摘要任务上的微调策略，推动了文本生成技术的多样化发展。

数据集最近研究