preference-agents/preference-enron

Name: preference-agents/preference-enron
Creator: preference-agents
Published: 2024-05-23 23:08:00
License: 暂无描述

Hugging Face2024-05-23 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/preference-agents/preference-enron

下载链接

链接失效反馈

官方服务：

资源简介：

Preference Enron 42K数据集包含41,927封经过精心筛选和处理的Enron公司邮件，旨在为电子邮件生成任务提供高质量的训练资源。每封邮件包含发件人、收件人、日期、主题、先前上下文和实际内容等字段。数据集通过过滤和加工策略，确保只包含用户原创内容，并使用Llama-3-70B-Instruct模型生成模拟用户意图的合成数据。

提供机构：

preference-agents

原始信息汇总

数据集概述

数据集名称

📨 Preference Enron 42K

数据集描述

该数据集包含41,927封经过精心筛选和处理的Enron邮件，旨在为邮件生成任务的模型训练提供高质量资源。每个样本包括发件人、收件人、日期、主题、前文内容以及邮件的实际内容。

数据集特征

from: 发件人的电子邮件地址，数据类型为字符串。
to: 收件人的电子邮件地址，数据类型为字符串。
date: 邮件发送的日期和时间，数据类型为字符串。
subject: 邮件的主题行，数据类型为字符串。
previous_context: 邮件线程或转发内容的前文，数据类型为字符串。
content: 发件人撰写的邮件实际内容，数据类型为字符串。

数据集结构

数据集分为一个名为"train"的分割，包含41,927个示例。

数据集大小

下载大小: 84,408,641字节
数据集大小: 172,457,363字节

许可信息

数据集遵循Apache 2.0许可。

语言

数据集主要语言为英语。

使用场景

数据集适用于邮件生成任务的研究，如内容生成、上下文理解和个性化。

数据集来源

数据集源自Enron语料库，原始数据由Enron公司的员工产生。

敏感信息

数据集包含Enron员工的电子邮件地址和个人姓名，但由于Enron语料库已公开，这些信息不被视为敏感。

偏差、风险和限制

数据集可能包含源自Enron语料库的偏差，如性别偏差、企业文化偏差和主题偏差。虽然筛选和处理策略可能减少了这些偏差，但某些偏差可能仍然存在。

统计信息

平均邮件内容令牌数: 58.83
平均前文内容令牌数: 261.48
唯一发件人数: 191
唯一收件人数: 11,377

引用信息

bibtex @dataset{preference_enron_42k, author = {Preference Agents}, title = {Preference Enron 42K}, year = {2023}, url = {https://huggingface.co/datasets/preference-agents/preference-enron-42k}, doi = {10.57967/hf/0286} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集