FinePersonas-Synthetic-Email-Conversations

Hugging Face2024-09-23 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/argilla/FinePersonas-Synthetic-Email-Conversations

下载链接

链接失效反馈

官方服务：

资源简介：

FinePersonas合成邮件对话数据集包含约115,000个通过邮件进行的合成对话，这些对话发生在两个从'argilla/FinePersonas-v0.1'数据集中抽取的角色之间。对话使用'NousResearch/Hermes-3-Llama-3.1-70B'模型生成。数据集包含角色、其他角色、思考、原始邮件、格式化邮件和元数据等特征。对话生成过程包括从原始数据集中选择11,000个角色，并为每个角色配对10个其他角色，其中5个角色在语义上接近，另外5个随机选择。然后使用LLM分析这些角色并生成内容丰富的邮件对话。该数据集为英文，使用'llama3.1'许可证，标签为'synthetic'、'distilabel'和'rlaif'，属于'文本生成'任务类别。

创建时间：

2024-09-21

原始信息汇总

FinePersonas Synthetic Email Conversations 数据集概述

数据集基本信息

数据集名称: FinePersonas Synthetic Email Conversations
数据集大小: 100K < n < 1M
语言: 英语 (en)
任务类别: 文本生成 (text-generation)
许可证: llama3.1
标签: synthetic, distilabel, rlaif

数据集结构

特征:
- persona: 字符串类型，表示角色描述。
- other_persona: 字符串类型，表示另一个角色的描述。
- thinking: 字符串类型，表示角色的思考过程。
- raw_emails: 字符串类型，表示原始电子邮件内容。
- formatted_emails: 列表类型，包含以下子特征:
  - body: 字符串类型，表示电子邮件正文。
  - from: 字符串类型，表示发件人。
  - subject: 字符串类型，表示邮件主题。
  - to: 字符串类型，表示收件人。
- distilabel_metadata: 结构类型，包含以下子特征:
  - raw_input_generate_emails_0: 列表类型，包含以下子特征:
    - content: 字符串类型，表示内容。
    - role: 字符串类型，表示角色。
  - raw_output_generate_emails_0: 字符串类型，表示原始输出。
- model_name: 字符串类型，表示生成对话的模型名称。

数据集分割

训练集 (train):
- 样本数量: 113663
- 字节数: 1772380672.7826436

数据集生成过程

生成模型: NousResearch/Hermes-3-Llama-3.1-70B
生成方法: 从 argilla/FinePersonas-v0.1 中采样约 11k 个角色，每个角色选择 10 个其他角色进行对话生成。
对话生成: 使用思维链 (CoT) 分析角色并创建对话上下文，然后生成电子邮件对话。

数据集使用

加载数据集: python from datasets import load_dataset ds = load_dataset("argilla-warehouse/FinePersonas-Synthetic-Emails")

数据集探索

Argilla 空间模板: 包含 1k 个对话的子集，可通过 Argilla space template 进行探索。

搜集汇总

数据集介绍

构建方式

FinePersonas Synthetic Email Conversations 数据集的构建基于 [argilla/FinePersonas-v0.1](https://huggingface.co/datasets/argilla/FinePersonas-v0.1) 中的约 11,000 个人物角色。通过从这些角色中随机选择 10 个角色，其中 5 个与原始角色语义相近，另外 5 个为随机选择，以生成多样化的对话。随后，利用 [NousResearch/Hermes-3-Llama-3.1-70B](https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-70B) 模型，结合思维链（CoT）分析，生成电子邮件对话内容。该过程通过系统提示和上下文迭代，确保对话的复杂性和真实性。

特点

该数据集包含约 115,000 条电子邮件对话，涵盖了多种人物角色之间的互动。每条对话均包含详细的上下文信息、人物角色的思考过程以及格式化的电子邮件内容。数据集还提供了两个新的子集：`unfriendly_email_conversations` 和 `unprofessional_email_conversations`，分别模拟了不友好和不专业的电子邮件交流场景。这些对话通过大语言模型生成，确保了内容的多样性和丰富性。

使用方法

该数据集可用于训练和评估自然语言生成模型，尤其是在电子邮件生成和对话系统领域。用户可以通过 [Argilla 空间模板](https://argilla-argilla-template-space.hf.space/dataset/f540e9b3-219c-4a18-b1c0-f061fd0ab666/annotation-mode) 探索部分对话内容。此外，数据集提供了 `pipeline.yaml` 文件，用户可通过 `distilabel` CLI 工具复现数据生成流程，或使用 `distilabel pipeline info` 命令查看配置详情。

背景与挑战

背景概述

FinePersonas Synthetic Email Conversations 数据集由Argilla团队于2024年创建，旨在通过生成式语言模型模拟真实场景下的电子邮件对话。该数据集基于FinePersonas-v0.1数据集，利用NousResearch/Hermes-3-Llama-3.1-70B模型生成约11.5万条电子邮件对话。其核心研究问题在于如何通过合成数据提升自然语言处理模型在电子邮件生成和对话理解任务中的表现。该数据集为文本生成领域提供了丰富的训练资源，尤其在个性化对话生成和上下文理解方面具有重要影响力。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，如何确保生成的电子邮件对话在语义和风格上接近真实场景，同时避免生成内容过于单调或重复，是一个关键难题。其次，在构建过程中，如何有效利用生成式模型进行上下文推理和复杂场景模拟，同时确保数据多样性和质量，是数据集构建的主要技术挑战。此外，如何平衡生成内容的真实性与多样性，避免模型生成不友好或不专业的对话，也是数据集构建过程中需要克服的难点。

常用场景

经典使用场景

FinePersonas Synthetic Email Conversations 数据集在自然语言处理领域中被广泛用于生成和模拟电子邮件对话。通过基于特定人物角色的对话生成，该数据集为研究人员提供了一个丰富的语料库，用于训练和评估生成式语言模型。特别是在对话生成任务中，该数据集能够帮助模型学习如何在特定上下文中生成连贯且符合人物性格的电子邮件内容。

衍生相关工作

基于 FinePersonas Synthetic Email Conversations 数据集，许多相关研究工作得以展开。例如，研究人员利用该数据集开发了更先进的对话生成模型，提升了模型在特定上下文中的生成能力。此外，该数据集还被用于研究人物角色一致性、对话连贯性等自然语言处理中的关键问题，推动了生成式语言模型在实际应用中的进一步发展。

数据集最近研究