preference-agents/preference-enron-42K
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/preference-agents/preference-enron-42K
下载链接
链接失效反馈官方服务:
资源简介:
Preference Enron 42K数据集包含41,927封经过筛选和处理的Enron电子邮件,用于电子邮件生成任务的研究。每个示例包括发件人、收件人、日期、主题、先前上下文和电子邮件内容。数据集还包含了通过Llama-3-70B-Instruct生成的合成意图,以模拟用户输入,帮助训练模型生成电子邮件。
Preference Enron 42K数据集包含41,927封经过筛选和处理的Enron电子邮件,用于电子邮件生成任务的研究。每个示例包括发件人、收件人、日期、主题、先前上下文和电子邮件内容。数据集还包含了通过Llama-3-70B-Instruct生成的合成意图,以模拟用户输入,帮助训练模型生成电子邮件。
提供机构:
preference-agents
原始信息汇总
数据集概述
数据集名称
- 名称: Preference Enron 42K
数据集内容
- 描述: 包含41,927封经过筛选和处理的Enron邮件,用于训练邮件生成模型。
- 特征:
from: 发件人邮箱地址to: 收件人邮箱地址date: 邮件发送日期和时间subject: 邮件主题previous_context: 邮件线程中的先前内容或转发内容content: 发件人撰写的实际邮件内容
数据集详情
- 语言: 英语
- 许可证: Apache 2.0
- 唯一发件人数: 191
- 唯一收件人数: 11,377
- 平均邮件内容令牌数: 58.83
- 平均先前上下文令牌数: 261.48
数据集结构
- 分割: 单一分割,名为"train",包含41,927个示例。
数据集创建
- 来源: 原始数据来自Enron语料库。
- 处理策略:
- 移除仅包含转发内容且无原始用户输入的邮件。
- 将邮件内容分为
previous_context和content两部分。 - 开发了一种启发式方法来区分发件人发送的原始邮件和非用户编写的内容。
使用场景
- 直接用途: 用于研究邮件生成任务,如内容生成、上下文理解和个性化。
- 超出范围的用途: 不应用于任何恶意目的或违反原始Enron语料库条款的方式。
统计信息
- 顶级发件人: 数据集中前10位发件人。
- 顶级收件人: 数据集中前10位收件人。
- 常用关键词: 邮件内容中最频繁使用的关键词。
- 邮件内容长度分布: 邮件内容长度的分布(以令牌计)。
引用信息
- 引用格式: bibtex @dataset{preference_enron_42k, author = {Preference Agents}, title = {Preference Enron 42K}, year = {2023}, url = {https://huggingface.co/datasets/preference-agents/preference-enron-42k}, doi = {10.57967/hf/0286} }



