five

preference-agents/preference-enron

收藏
Hugging Face2024-05-23 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/preference-agents/preference-enron
下载链接
链接失效反馈
官方服务:
资源简介:
Preference Enron 42K数据集包含41,927封经过精心筛选和处理的Enron公司邮件,旨在为电子邮件生成任务提供高质量的训练资源。每封邮件包含发件人、收件人、日期、主题、先前上下文和实际内容等字段。数据集通过过滤和加工策略,确保只包含用户原创内容,并使用Llama-3-70B-Instruct模型生成模拟用户意图的合成数据。

Preference Enron 42K数据集包含41,927封经过精心筛选和处理的Enron公司邮件,旨在为电子邮件生成任务提供高质量的训练资源。每封邮件包含发件人、收件人、日期、主题、先前上下文和实际内容等字段。数据集通过过滤和加工策略,确保只包含用户原创内容,并使用Llama-3-70B-Instruct模型生成模拟用户意图的合成数据。
提供机构:
preference-agents
原始信息汇总

数据集概述

数据集名称

📨 Preference Enron 42K

数据集描述

该数据集包含41,927封经过精心筛选和处理的Enron邮件,旨在为邮件生成任务的模型训练提供高质量资源。每个样本包括发件人、收件人、日期、主题、前文内容以及邮件的实际内容。

数据集特征

  • from: 发件人的电子邮件地址,数据类型为字符串。
  • to: 收件人的电子邮件地址,数据类型为字符串。
  • date: 邮件发送的日期和时间,数据类型为字符串。
  • subject: 邮件的主题行,数据类型为字符串。
  • previous_context: 邮件线程或转发内容的前文,数据类型为字符串。
  • content: 发件人撰写的邮件实际内容,数据类型为字符串。

数据集结构

数据集分为一个名为"train"的分割,包含41,927个示例。

数据集大小

  • 下载大小: 84,408,641字节
  • 数据集大小: 172,457,363字节

许可信息

数据集遵循Apache 2.0许可。

语言

数据集主要语言为英语。

使用场景

数据集适用于邮件生成任务的研究,如内容生成、上下文理解和个性化。

数据集来源

数据集源自Enron语料库,原始数据由Enron公司的员工产生。

敏感信息

数据集包含Enron员工的电子邮件地址和个人姓名,但由于Enron语料库已公开,这些信息不被视为敏感。

偏差、风险和限制

数据集可能包含源自Enron语料库的偏差,如性别偏差、企业文化偏差和主题偏差。虽然筛选和处理策略可能减少了这些偏差,但某些偏差可能仍然存在。

统计信息

  • 平均邮件内容令牌数: 58.83
  • 平均前文内容令牌数: 261.48
  • 唯一发件人数: 191
  • 唯一收件人数: 11,377

引用信息

bibtex @dataset{preference_enron_42k, author = {Preference Agents}, title = {Preference Enron 42K}, year = {2023}, url = {https://huggingface.co/datasets/preference-agents/preference-enron-42k}, doi = {10.57967/hf/0286} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作