preference-agents/preference-enron-42K

Name: preference-agents/preference-enron-42K
Creator: preference-agents
Published: 2024-06-03 00:33:34
License: 暂无描述

Hugging Face2024-06-03 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/preference-agents/preference-enron-42K

下载链接

链接失效反馈

官方服务：

资源简介：

Preference Enron 42K数据集包含41,927封经过筛选和处理的Enron电子邮件，用于电子邮件生成任务的研究。每个示例包括发件人、收件人、日期、主题、先前上下文和电子邮件内容。数据集还包含了通过Llama-3-70B-Instruct生成的合成意图，以模拟用户输入，帮助训练模型生成电子邮件。

提供机构：

preference-agents

原始信息汇总

数据集概述

数据集名称

名称: Preference Enron 42K

数据集内容

描述: 包含41,927封经过筛选和处理的Enron邮件，用于训练邮件生成模型。
特征:
- from: 发件人邮箱地址
- to: 收件人邮箱地址
- date: 邮件发送日期和时间
- subject: 邮件主题
- previous_context: 邮件线程中的先前内容或转发内容
- content: 发件人撰写的实际邮件内容

数据集详情

语言: 英语
许可证: Apache 2.0
唯一发件人数: 191
唯一收件人数: 11,377
平均邮件内容令牌数: 58.83
平均先前上下文令牌数: 261.48

数据集结构

分割: 单一分割，名为"train"，包含41,927个示例。

数据集创建

来源: 原始数据来自Enron语料库。
处理策略:
1. 移除仅包含转发内容且无原始用户输入的邮件。
2. 将邮件内容分为previous_context和content两部分。
3. 开发了一种启发式方法来区分发件人发送的原始邮件和非用户编写的内容。

使用场景

直接用途: 用于研究邮件生成任务，如内容生成、上下文理解和个性化。
超出范围的用途: 不应用于任何恶意目的或违反原始Enron语料库条款的方式。

统计信息

顶级发件人: 数据集中前10位发件人。
顶级收件人: 数据集中前10位收件人。
常用关键词: 邮件内容中最频繁使用的关键词。
邮件内容长度分布: 邮件内容长度的分布（以令牌计）。

引用信息

引用格式: bibtex @dataset{preference_enron_42k, author = {Preference Agents}, title = {Preference Enron 42K}, year = {2023}, url = {https://huggingface.co/datasets/preference-agents/preference-enron-42k}, doi = {10.57967/hf/0286} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集