five

Yale-LILY/aeslc

收藏
Hugging Face2024-01-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Yale-LILY/aeslc
下载链接
链接失效反馈
资源简介:
AESLC数据集是一个包含Enron公司员工电子邮件的集合,主要用于电子邮件主题生成任务。数据集包含两个特征:邮件正文和邮件主题。数据集为单语种英语,主要包含美国英语。数据集分为训练集、验证集和测试集,分别包含14436、1960和1906个样本。

AESLC数据集是一个包含Enron公司员工电子邮件的集合,主要用于电子邮件主题生成任务。数据集包含两个特征:邮件正文和邮件主题。数据集为单语种英语,主要包含美国英语。数据集分为训练集、验证集和测试集,分别包含14436、1960和1906个样本。
提供机构:
Yale-LILY
原始信息汇总

数据集概述

名称: AESLC: Annotated Enron Subject Line Corpus

语言: 英语(主要为en-US,有少数例外)

许可证: 未知

多语言性: 单语

大小: 10K<n<100K

源数据: 原始数据

任务类别: 摘要生成

标签:

  • 基于方面的摘要
  • 对话摘要
  • 多文档摘要
  • 电子邮件标题生成

数据集结构

数据实例

  • 特征:
    • email_body: 字符串类型,电子邮件正文文本。
    • subject_line: 字符串类型,电子邮件主题文本。

数据分割

名称 训练 验证 测试
default 14436 1960 1906

数据集创建

注释

  • 创建者: 众包
  • 语言创建者: 发现

数据集信息

  • 下载大小: 7948020字节
  • 数据集大小: 14940684字节

引用信息

@inproceedings{zhang-tetreault-2019-email, title = "This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation", author = "Zhang, Rui and Tetreault, Joel", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1043", doi = "10.18653/v1/P19-1043", pages = "446--456", }

搜集汇总
数据集介绍
main_image_url
构建方式
在电子邮件自动摘要研究领域,AESLC数据集的构建体现了对真实商业通信文本的系统性整理。该数据集源自安然公司员工的电子邮件通信,通过筛选原始邮件内容,提取出邮件正文与对应主题行,形成结构化的文本对。构建过程中,原始邮件数据经过清洗与格式化处理,确保文本的完整性与一致性,最终划分为训练集、验证集和测试集,为模型训练与评估提供了标准化的数据基础。
特点
AESLC数据集的特点在于其专注于电子邮件主题行生成任务,提供了丰富的真实场景文本对。数据集规模适中,包含超过一万八千条样本,邮件正文与主题行均以英文呈现,语言风格多样,涵盖了商务沟通中的正式与非正式表达。数据字段简洁明确,仅包含邮件正文和主题行两个文本特征,便于直接应用于序列到序列的生成模型,同时数据分割合理,支持模型的训练、验证与测试全流程。
使用方法
在自然语言处理任务中,AESLC数据集主要用于电子邮件主题行生成的研究与应用。使用者可通过HuggingFace数据集库直接加载该数据集,利用其预定义的数据分割进行模型训练与评估。典型应用流程包括将邮件正文作为输入序列,主题行作为目标序列,构建基于Transformer的生成模型,如BART或T5,通过微调优化生成性能。数据集支持批量处理与迭代,便于集成到现代深度学习框架中,推动自动摘要技术的实践发展。
背景与挑战
背景概述
在自然语言处理领域,电子邮件主题行生成作为文本摘要任务的一个特定分支,旨在从冗长的邮件正文中提炼出简洁且信息丰富的主题行。AESLC(Annotated Enron Subject Line Corpus)数据集由Rui Zhang与Joel Tetreault等研究人员于2019年构建,其核心研究问题聚焦于如何自动生成准确反映邮件内容的主题行,以提升信息检索与处理的效率。该数据集基于著名的安然公司电子邮件语料库,通过众包标注方式构建,为电子邮件自动摘要研究提供了宝贵的真实世界数据资源,推动了对话摘要与多文档摘要等子领域的发展。
当前挑战
电子邮件主题行生成任务面临多重挑战。在领域问题层面,邮件正文往往包含复杂句式、专业术语及非正式表达,要求模型具备深层语义理解与关键信息抽取能力,同时需保持主题行的简洁性与准确性。构建过程中,数据来源的敏感性带来隐私保护难题,原始安然邮件涉及大量个人与商业信息,需经过细致脱敏处理;此外,众包标注的一致性难以保证,不同标注者对主题行重要性的判断可能存在偏差,影响数据质量与模型训练的稳定性。
常用场景
经典使用场景
在自然语言处理领域,电子邮件主题行生成任务因其独特的文本特性而备受关注。AESLC数据集作为该任务的代表性资源,其经典使用场景聚焦于训练和评估序列到序列模型,特别是针对电子邮件正文到主题行的自动生成。研究者利用该数据集构建端到端的神经网络架构,如基于Transformer的编码器-解码器模型,通过捕捉邮件正文的语义核心,生成简洁且信息丰富的主题行。这一过程不仅验证了模型在短文本摘要任务上的性能,还为探索电子邮件通信中的语言模式提供了实验基础。
衍生相关工作
围绕AESLC数据集,学术界衍生了一系列经典研究工作。原始论文《This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation》首次定义了电子邮件主题行生成任务,并建立了基线模型。后续研究扩展了该数据集的用途,例如探索基于强化学习的主题行优化方法,或将AESLC与其他摘要数据集结合进行多任务学习。这些工作不仅深化了对电子邮件摘要技术的理解,还促进了预训练语言模型(如BART、T5)在特定领域摘要任务上的微调策略,推动了文本生成技术的多样化发展。
数据集最近研究
最新研究方向
在自然语言处理领域,电子邮件主题行生成任务正逐渐成为文本摘要研究的热点。AESLC数据集作为基于Enron公司邮件构建的语料库,为这一方向提供了丰富的真实场景数据。当前研究聚焦于利用预训练语言模型,如BART和T5,进行端到端的主题行生成,旨在提升生成内容的准确性和简洁性。同时,结合多文档摘要和对话摘要技术,探索邮件长文本的语义压缩与关键信息提取,成为前沿趋势。该数据集的应用不仅推动了商业沟通效率的提升,也为个性化邮件助手等智能工具的开发奠定了基础,在信息过载时代具有显著的实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作