Enron Intent Dataset (Manually Verified)
收藏github2024-04-16 更新2024-05-31 收录
下载链接:
https://github.com/Charlie9/enron_intent_dataset_verified
下载链接
链接失效反馈官方服务:
资源简介:
这是一个手动验证版本的Parakweet Labs意图数据集,源自Enron电子邮件数据集。旨在标记3655封电子邮件句子,这些句子需要接收者采取行动或回复,或提供如未来事件和截止日期等重要信息。此数据集已由单个个体手动验证,专注于区分业务和专业请求与个人/垃圾邮件。
This is a manually verified version of the Parakweet Labs intent dataset, derived from the Enron email dataset. It aims to label 3,655 email sentences that require the recipient to take action or respond, or provide important information such as future events and deadlines. This dataset has been manually verified by a single individual, focusing on distinguishing business and professional requests from personal/spam emails.
创建时间:
2017-04-21
原始信息汇总
Enron Intent Dataset (Manually Verified)
数据集概述
- 来源:基于Enron邮件数据集,由Parakweet Labs提供基础数据。
- 目的:标记3655条需要接收者采取行动或回复的邮件“句子”,以及提供重要信息如未来事件和截止日期。
- 验证方式:由单一个体手动验证,专注于区分业务和专业请求与个人/垃圾邮件。
数据集版本对比
- Parakweet版本:1929条负面意图,1726条正面意图。
- 本版本:2403条负面意图,1252条正面意图。
分类标准
- 正面意图:
- 以命令或祈使形式要求用户采取真实行动。
- 建议未来会议或事件。
- 非广告服务,如技术产品、在线购物。
- 非涉及用户的第三方事务评论。
- 非随意、模糊或修辞性问题。
假设
- 链接请求:除非明确说明,否则任何点击链接的请求均视为未经请求。
- 行动指向:除非之前有问候,否则指向特定名称的行动视为涉及第三方个体。
- 附件和抄送人员:对于本数据集的原始目的,不考虑附件和抄送人员的提及。
进一步说明
- 存在一些拼写错误/打字错误被修正,但并非全部。
- 许多“句子”是短语或多个句子在一行上,未进行分离以验证原始数据与新数据集之间的数据丢失。
搜集汇总
数据集介绍

构建方式
Enron Intent Dataset (Manually Verified) 是从Enron电子邮件数据集中提取并经过人工验证的意图数据集。该数据集旨在标记3655条需要接收者采取行动或提供重要信息的电子邮件‘句子’,如未来的会议和截止日期。数据集的构建过程由单个个体手动完成,重点区分了商业和专业请求与个人或垃圾邮件。通过严格的分类标准,如命令式或祈使句形式的请求、未来事件的建议等,确保了数据集的高质量。
特点
该数据集的特点在于其高度的精确性和人工验证的可靠性。相较于原始的Parakweet Labs版本,本数据集在正负意图的分类上进行了更为细致的调整,包括2403条负意图和1252条正意图。此外,数据集还修正了部分拼写错误和语法问题,确保了数据的准确性和一致性。
使用方法
Enron Intent Dataset (Manually Verified) 可用于训练和评估电子邮件意图识别模型,特别是在需要区分商业请求和个人通信的场景中。用户可以通过加载数据集并根据提供的分类标准进行模型训练,以提高对电子邮件内容意图的识别准确率。数据集的结构和分类标准为模型提供了清晰的训练方向,有助于提升模型的实际应用效果。
背景与挑战
背景概述
Enron Intent Dataset (Manually Verified) 是一个基于Enron电子邮件数据集的手动验证版本,旨在标记需要接收者采取行动或提供重要信息的3655条电子邮件‘句子’。该数据集由Parakweet Labs的意图数据集衍生而来,经过单一研究人员的精心验证,专注于区分商业和专业请求与个人或垃圾邮件。其核心研究问题在于通过人工验证提高数据集的准确性,从而为电子邮件意图分类提供更可靠的资源。该数据集的创建不仅丰富了电子邮件分析领域的研究资源,还为后续的意图识别和自然语言处理研究奠定了基础。
当前挑战
Enron Intent Dataset (Manually Verified) 在构建过程中面临多项挑战。首先,数据集的分类标准具有主观性,尤其是在区分正负意图时,可能存在人类判断的不一致性。其次,数据集中包含的短语或多个句子未被分离,可能导致数据验证过程中的信息丢失。此外,尽管对拼写错误进行了修正,但并非所有错误都被纠正,这可能影响数据的质量。最后,数据集的验证过程依赖于单一研究人员的判断,可能存在偏差,影响数据集的普适性和可靠性。
常用场景
经典使用场景
Enron Intent Dataset (Manually Verified) 数据集的经典使用场景主要集中在电子邮件内容的意图识别与分类任务中。该数据集通过人工验证,标记了3655条电子邮件中的句子,这些句子涉及需要收件人采取行动或提供重要信息的场景,如未来事件和截止日期。通过区分正负意图,该数据集为自然语言处理领域的意图识别模型提供了高质量的训练数据,尤其适用于企业级邮件系统的自动化处理和响应。
解决学术问题
该数据集解决了自然语言处理领域中电子邮件意图识别的关键问题,尤其是在区分业务请求与个人或垃圾邮件的混淆问题上。通过提供经过人工验证的正负意图标注,该数据集显著提升了意图分类模型的准确性和鲁棒性,为学术界在电子邮件自动化处理和信息提取方面的研究提供了有力支持。其意义在于推动了企业通信自动化技术的发展,并为相关领域的研究提供了可靠的数据基础。
衍生相关工作
基于Enron Intent Dataset (Manually Verified) 数据集,许多相关研究工作得以展开。例如,研究人员开发了更为复杂的意图识别模型,结合上下文信息和语义分析,进一步提升了邮件分类的准确性。此外,该数据集还激发了对多模态数据(如邮件附件和链接)的意图识别研究,推动了企业通信自动化技术的多样化发展。相关工作还包括对跨领域意图识别的探索,为不同行业的邮件处理提供了通用解决方案。
以上内容由遇见数据集搜集并总结生成



