preference-agents-working/preference-enron-backup
收藏数据集概述
数据集摘要
📨 Preference Enron 42K 数据集包含从 Enron 语料库中精心筛选和处理的 41,927 封电子邮件。该数据集经过精心策划,旨在为电子邮件生成任务的模型训练提供高质量资源。每个示例包括发件人、收件人、日期、主题、先前上下文和电子邮件的实际内容。
数据集详情
数据集描述
- 策划者: Preference Agents
- 语言: 英语
- 许可证: Apache 2.0
- 唯一发件人数: 191
- 唯一收件人数: 11,377
- 电子邮件内容的平均标记数: 58.83
- 先前上下文的平均标记数: 261.48
数据集结构
📨 Preference Enron 42K 数据集包括以下每个电子邮件的字段:
from:发件人的电子邮件地址to:收件人的电子邮件地址date:电子邮件发送的日期和时间subject:电子邮件的主题行previous_context:线程中任何先前电子邮件的内容或转发的内容content:发件人编写的电子邮件的实际内容
数据集有一个名为 "train" 的单一拆分,包含 41,927 个示例。
数据集创建
策划理由
📨 Preference Enron 42K 数据集的创建旨在通过将各种筛选和处理策略应用于原始 Enron 语料库,为电子邮件生成任务提供高质量资源。筛选过程旨在删除仅包含转发内容且没有原始用户输入的电子邮件,并将实际用户编写的内容与任何电子邮件链、转发内容或回复分开。
源数据
数据收集和处理
数据集是通过将以下筛选和处理策略应用于原始 Enron 语料库创建的:
- 删除仅包含转发内容且没有原始用户输入的电子邮件,例如转发的电子邮件线程、博客文章和文章。
- 将电子邮件内容分为两部分:
previous_context和content。这确保了任何电子邮件链、转发内容或回复其他电子邮件的内容不作为发件人编写的电子邮件的一部分。 - 开发了一种启发式方法来确定发件人发送的原始电子邮件和非用户编写内容之间的分界线。
意图生成
使用给定的元数据和电子邮件内容,我们希望模拟编写电子邮件背后的意图。这将有效地模拟使用要点提示模型编写给定电子邮件的过程。我们使用 Llama-3-70B-Instruct 为每个电子邮件生成一组合成意图,以模拟用户输入,帮助训练模型在给定用户输入的情况下生成电子邮件。这简化了微调过程,因为我们有意图作为输入,真实电子邮件作为输出,从而得到一个能够将用户意图转化为高质量电子邮件的模型,这些电子邮件与用户的规范紧密一致。
源数据生产者
原始数据来自 Enron 语料库,其中包含 Enron 公司员工的电子邮件。
个人和敏感信息
数据集包含 Enron 员工的电子邮件地址和个人姓名。然而,由于 Enron 语料库已经公开可用,这些信息不被视为敏感信息。
偏差、风险和限制
由于数据集来自 Enron 语料库,可能包含原始数据中的偏差,例如性别偏差、企业文化偏差和主题偏差。筛选和处理策略在策划过程中可能减轻了其中一些偏差,但仍有可能存在一些偏差。
建议
用户在使用数据集进行研究或其他用途时应意识到潜在的偏差和限制。在解释结果或得出结论时,必须考虑数据的上下文和来源。
统计信息
- 前 10 名电子邮件发件人
- 前 10 名电子邮件收件人
- 电子邮件内容中最常用的关键词
- 电子邮件内容长度(以标记为单位)的分布
引用
如果您在研究中使用 📨 Preference Enron 42K 数据集,请引用以下内容:
bibtex @dataset{preference_enron_42k, author = {Preference Agents}, title = {Preference Enron 42K}, year = {2023}, url = {https://huggingface.co/datasets/preference-agents/preference-enron-42k}, doi = {10.57967/hf/0286} }



