Synthetic-Persona-Chat

Name: Synthetic-Persona-Chat
Creator: 南加州大学
Published: 2023-12-16 02:23:50
License: 暂无描述

arXiv2023-12-16 更新2024-06-21 收录

下载链接：

https://github.com/google-research/datasets/Synthetic-Persona-Chat

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic-Persona-Chat是由南加州大学和Google Research合作创建的大型高质量对话数据集，包含20,000条基于用户角色的对话。该数据集利用大型语言模型（LLMs）生成，旨在通过丰富的用户角色信息提升对话机器人的交互深度和用户参与度。数据集的创建过程包括用户角色生成、配对和对话生成三个阶段，确保对话内容与用户角色高度一致，适用于训练和评估个性化对话系统。

Synthetic-Persona-Chat is a large-scale, high-quality dialogue dataset collaboratively created by the University of Southern California and Google Research. It encompasses 20,000 role-based conversations and is designed to enhance the depth of interaction and user engagement for dialogue robots by leveraging large language models (LLMs). The dataset's creation process involves three stages: user role generation, pairing, and dialogue generation, ensuring a high degree of consistency between the dialogue content and user roles, and is suitable for training and evaluating personalized dialogue systems.

提供机构：

南加州大学

创建时间：

2023-12-16

搜集汇总

数据集介绍

构建方式

Synthetic-Persona-Chat数据集的构建方式是利用大型语言模型（LLM）从种子数据集中生成高质量的对话数据集。该过程分为三个步骤：用户生成、用户配对和对话生成。在用户生成阶段，通过提示LLM生成新的用户属性，并构建用户档案。用户配对阶段根据用户档案的语义相似性为对话选择合适的用户。对话生成阶段采用生成器-评判者架构，迭代地生成高质量的对话。生成器输出候选对话，评判者根据预设的政策评估对话质量，并选择最佳对话以优化生成器。

特点

Synthetic-Persona-Chat数据集的特点是规模大、质量高且真实。该数据集包含2万个忠实对话，每个对话平均有11.8轮。数据集在多个维度上进行了评估，包括毒性、多样性和对话质量。与Persona-Chat数据集相比，Synthetic-Persona-Chat数据集在毒性方面有显著降低，在多样性方面略低，但在对话质量方面表现更佳。此外，数据集的忠实度也得到了验证，生成的对话与用户档案高度一致。

使用方法

使用Synthetic-Persona-Chat数据集时，可以将其用于训练对话生成模型、用户画像推断模型等任务。数据集的使用方法包括将用户档案和对话作为输入，训练模型以生成新的对话或预测用户的属性。此外，数据集还可以用于评估对话质量，例如评估对话的流畅性、一致性和相关性等。

背景与挑战

背景概述

Synthetic-Persona-Chat数据集是自然语言处理（NLP）领域的一项重要成果，由南加州大学、谷歌公司的研究人员共同创建。该数据集旨在通过大型语言模型（LLMs）生成高质量、基于角色的对话数据集，以促进对话模型与用户之间的深度交互。该数据集的创建始于2018年，主要研究人员包括Pegah Jandaghi、XiangHai Sheng、Xinyi Bai等。Synthetic-Persona-Chat数据集的核心研究问题是如何利用LLMs自动生成、扩展和更新基于角色的对话数据集，以满足不断变化的话题和概念。该数据集的发布对相关领域产生了深远的影响，为训练个性化对话模型、研究对话质量评估等方面提供了宝贵的数据资源。

当前挑战

Synthetic-Persona-Chat数据集面临着一些挑战。首先，数据集的生成过程需要大量的计算资源和LLMs的访问权限。其次，数据集的质量受限于LLMs的性能，因为质量评估模型也是基于LLMs的。此外，数据生成框架难以生成不包含高质量对话的、真实自然的对话，因为该框架假设对话双方都是流利的，对话流程完全一致，且在对话过程中没有意外事件（如他人打扰、连接丢失等）。最后，该框架难以融入难以捉摸的角色特征，如幽默感、需要多轮对话才能体现的用户属性等。

常用场景

经典使用场景

Synthetic-Persona-Chat 数据集主要用于训练能够与用户进行更深层次互动的对话模型。通过对包含用户性格、动机和行为等方面信息的虚拟人物进行对话，模型可以更好地理解和响应用户，从而提高用户体验。该数据集可以用于训练各种对话模型，包括但不限于聊天机器人、虚拟助手和客户服务等。

解决学术问题

Synthetic-Persona-Chat 数据集解决了现有对话数据集在多样性、动态性和质量方面的局限性。与现有的基于虚拟人物的对话数据集相比，Synthetic-Persona-Chat 数据集包含更多样化的虚拟人物属性和更丰富的对话内容，同时保证了对话与虚拟人物的一致性。此外，该数据集还可以自动生成和更新虚拟人物属性，从而更好地适应不断变化的社会环境和用户需求。

衍生相关工作

Synthetic-Persona-Chat 数据集衍生了多种相关研究，例如基于虚拟人物的对话模型训练、虚拟人物属性自动生成和更新、对话质量评估等。这些研究有助于推动对话系统的进一步发展和应用，从而提高用户体验和满足用户需求。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集