preference-agents/preference-enron
收藏Hugging Face2024-05-23 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/preference-agents/preference-enron
下载链接
链接失效反馈官方服务:
资源简介:
Preference Enron 42K数据集包含41,927封经过精心筛选和处理的Enron公司邮件,旨在为电子邮件生成任务提供高质量的训练资源。每封邮件包含发件人、收件人、日期、主题、先前上下文和实际内容等字段。数据集通过过滤和加工策略,确保只包含用户原创内容,并使用Llama-3-70B-Instruct模型生成模拟用户意图的合成数据。
Preference Enron 42K数据集包含41,927封经过精心筛选和处理的Enron公司邮件,旨在为电子邮件生成任务提供高质量的训练资源。每封邮件包含发件人、收件人、日期、主题、先前上下文和实际内容等字段。数据集通过过滤和加工策略,确保只包含用户原创内容,并使用Llama-3-70B-Instruct模型生成模拟用户意图的合成数据。
提供机构:
preference-agents
原始信息汇总
数据集概述
数据集名称
📨 Preference Enron 42K
数据集描述
该数据集包含41,927封经过精心筛选和处理的Enron邮件,旨在为邮件生成任务的模型训练提供高质量资源。每个样本包括发件人、收件人、日期、主题、前文内容以及邮件的实际内容。
数据集特征
- from: 发件人的电子邮件地址,数据类型为字符串。
- to: 收件人的电子邮件地址,数据类型为字符串。
- date: 邮件发送的日期和时间,数据类型为字符串。
- subject: 邮件的主题行,数据类型为字符串。
- previous_context: 邮件线程或转发内容的前文,数据类型为字符串。
- content: 发件人撰写的邮件实际内容,数据类型为字符串。
数据集结构
数据集分为一个名为"train"的分割,包含41,927个示例。
数据集大小
- 下载大小: 84,408,641字节
- 数据集大小: 172,457,363字节
许可信息
数据集遵循Apache 2.0许可。
语言
数据集主要语言为英语。
使用场景
数据集适用于邮件生成任务的研究,如内容生成、上下文理解和个性化。
数据集来源
数据集源自Enron语料库,原始数据由Enron公司的员工产生。
敏感信息
数据集包含Enron员工的电子邮件地址和个人姓名,但由于Enron语料库已公开,这些信息不被视为敏感。
偏差、风险和限制
数据集可能包含源自Enron语料库的偏差,如性别偏差、企业文化偏差和主题偏差。虽然筛选和处理策略可能减少了这些偏差,但某些偏差可能仍然存在。
统计信息
- 平均邮件内容令牌数: 58.83
- 平均前文内容令牌数: 261.48
- 唯一发件人数: 191
- 唯一收件人数: 11,377
引用信息
bibtex @dataset{preference_enron_42k, author = {Preference Agents}, title = {Preference Enron 42K}, year = {2023}, url = {https://huggingface.co/datasets/preference-agents/preference-enron-42k}, doi = {10.57967/hf/0286} }



