Enron Intent Dataset (Manually Verified)

github2024-04-11 更新2024-05-31 收录

下载链接：

https://github.com/vseledkin/enron_intent_dataset_verified

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从Enron邮件数据集中提取并手动验证的Parakweet Labs意图数据集版本。该数据集旨在标记3655封需要接收者采取行动或回复的电子邮件句子，或提供重要信息，如未来事件和截止日期。数据集通过区分业务和专业请求与个人/垃圾邮件来手动验证。

This is a manually verified version of the Parakweet Labs intent dataset, extracted from the Enron email dataset. The dataset is designed to label 3,655 email sentences that require the recipient to take action or respond, or provide critical information such as future events and deadlines. The dataset has been manually verified by distinguishing between business and professional requests from personal/spam emails.

创建时间：

2017-07-12

原始信息汇总

Enron Intent Dataset (Manually Verified) 概述

数据集描述

数据来源：该数据集是从Enron邮件数据集中提取并手动验证的版本，专注于标记需要接收者采取行动或回复的邮件“句子”，以及提供重要信息如未来事件和截止日期。
数据规模：包含3655条邮件“句子”。
验证方式：由单个个体手动验证，区分业务和专业请求与个人/垃圾邮件。

意图分类

原始Parakweet版本：1929条负面意图，1726条正面意图。
当前版本：2403条负面意图，1252条正面意图。

分类标准

正面意图：
1. 以命令或祈使形式要求用户采取真实行动。
2. 提议未来的会议或事件。
3. 不涉及广告服务，如技术产品、在线购物。
4. 不评论与用户无关的第三方事务。
5. 非随意、模糊或修辞性问题。

假设条件

任何请求点击链接的行为除非明确说明，否则视为未经请求。
任何直接指向名字的行为，除非前面有问候，否则视为指向第三方个体，与接收者无关。
对于原始验证数据集的目的，提及附件和抄送的个人不相关。

进一步说明

数据集中的一些拼写错误/打字错误已得到纠正，但并非所有都得到保证。
许多“句子”是短语或多个句子在一条线上，但为了验证数据丢失，未进行分离。

搜集汇总

数据集介绍

构建方式

Enron Intent Dataset (Manually Verified) 是从Enron电子邮件数据集中提取并经过人工验证的意图数据集。该数据集旨在标记3655条需要接收者采取行动或提供重要信息的电子邮件‘句子’，如未来的事件和截止日期。数据集的构建过程由单个个体完成，重点区分了业务和专业请求与个人/垃圾邮件。通过严格的分类标准，如命令或祈使形式的请求、未来会议或事件的建议等，确保了数据集的高质量。

使用方法

使用该数据集时，用户可以利用其进行意图分类模型的训练和评估，特别是在需要区分电子邮件中是否包含接收者需要采取的具体行动的场景下。通过分析正向和负向意图的分布，用户可以优化模型以更好地处理业务相关的电子邮件内容。此外，数据集的分类标准和假设为模型提供了明确的指导，有助于提高模型的准确性和实用性。

背景与挑战

背景概述

Enron Intent Dataset (Manually Verified) 是一个基于Enron电子邮件数据集的手动验证版本，旨在标记需要接收者采取行动或提供重要信息的电子邮件‘句子’，如未来的会议和截止日期。该数据集由Parakweet Labs的原始数据集改进而来，由一名个人专注于区分商业和专业请求与个人/垃圾邮件。数据集包含3655条电子邮件‘句子’，分为2403条负意图和1252条正意图。该数据集的创建旨在提高对电子邮件内容意图分类的准确性，特别是在商业和专业通信领域，对自然语言处理和电子邮件管理系统的研究具有重要意义。

当前挑战

Enron Intent Dataset (Manually Verified) 面临的挑战主要在于意图分类的主观性和复杂性。首先，区分正负意图的标准具有一定的主观性，如判断某些问题是否需要回复，这可能导致不同人之间的分类不一致。其次，数据集中包含的短语和多句组合的‘句子’未被分离，可能导致在验证过程中数据丢失。此外，尽管对拼写错误和排版问题进行了修正，但并非所有问题都能得到解决，这可能影响数据的质量和一致性。这些挑战要求在未来的研究中进一步优化分类标准和数据处理方法，以提高数据集的可靠性和实用性。

常用场景

经典使用场景

Enron Intent Dataset (Manually Verified) 数据集的经典使用场景主要集中在电子邮件内容的意图识别与分类任务中。该数据集通过人工验证，标记了3655条电子邮件中的句子，区分出需要收件人采取行动或提供重要信息的正向意图，以及与之相对的负向意图。这一数据集特别适用于开发和评估自然语言处理模型，尤其是在企业通信环境中，用于自动化任务分配、会议安排和信息提取等应用。

解决学术问题

该数据集解决了在电子邮件通信中意图识别的学术研究问题，特别是在区分业务请求与个人或垃圾邮件内容方面的挑战。通过提供经过人工验证的正负意图标注，该数据集为研究者提供了一个高质量的基准，用于训练和测试意图分类模型。这不仅提升了模型的准确性，还为理解人类通信中的意图表达提供了新的视角，推动了自然语言处理领域的发展。

实际应用

在实际应用中，Enron Intent Dataset (Manually Verified) 数据集可用于构建企业内部的自动化邮件处理系统。例如，通过识别邮件中的正向意图，系统可以自动将任务分配给相应的员工，或提醒相关人员即将到来的会议和截止日期。此外，该数据集还可用于开发智能助手，帮助用户更高效地管理电子邮件，减少手动筛选和分类的工作量，从而提升工作效率。

数据集最近研究