ChatGPT Roleplay Dataset (CRD)

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/PortNLP/ChatGPT_Role-play_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与ChatGPT 3.5在不同场景下的对话，并进行了标注以理解用户意图和模型响应的自然性。数据集包括vanilla.csv、boss.csv和classmate.csv，分别代表无特定角色扮演指令的交互、ChatGPT扮演用户老板的交互以及ChatGPT扮演用户同学的交互。

This dataset comprises dialogues with ChatGPT 3.5 across various scenarios, annotated to comprehend user intents and the naturalness of model responses. It includes vanilla.csv, boss.csv, and classmate.csv, representing interactions without specific role-playing instructions, interactions where ChatGPT assumes the role of the user's boss, and interactions where ChatGPT assumes the role of the user's classmate, respectively.

创建时间：

2024-03-12

原始信息汇总

数据集概述

数据集名称: ChatGPT Roleplay Dataset (CRD)
数据集来源: 与论文 "ChatGPT Role-play Dataset: Analysis of User Motives and Model Naturalness" 相关联，该论文已被LREC-COLING 2024会议接受。

数据集内容

vanilla.csv: 包含未指定角色扮演指令的交互数据。
boss.csv: 包含ChatGPT扮演用户上司角色的交互数据。
classmate.csv: 包含ChatGPT扮演用户同学角色的交互数据。

数据集特点

编码信息: 每轮交互均编码了用户回复的动机或ChatGPT回复的自然性感知。

引用信息

引用格式:

@article{tao2024chatgpt, title={ChatGPT Role-play Dataset: Analysis of User Motives and Model Naturalness}, author={Tao, Yufei and Agrawal, Ameeta and Dombi, Judit and Sydorenko, Tetyana and Lee, Jung In}, journal={arXiv preprint arXiv:2403.18121}, year={2024} }

搜集汇总

数据集介绍

构建方式

ChatGPT Roleplay Dataset (CRD) 的构建基于对用户动机和模型自然性的深入分析。该数据集通过收集和编码用户与ChatGPT在不同角色扮演场景中的交互数据，形成了多个子数据集，包括无特定角色扮演指令的交互（vanilla.csv）、ChatGPT扮演用户上司的交互（boss.csv）以及ChatGPT扮演用户同学的交互（classmate.csv）。每轮交互均被编码以反映用户动机或ChatGPT响应的自然性，从而确保数据集的多样性和深度。

特点

CRD数据集的显著特点在于其多角色交互的丰富性和对用户动机及模型响应自然性的细致编码。通过提供不同角色扮演场景下的交互数据，该数据集不仅展示了ChatGPT在多种情境下的表现，还为研究用户动机与模型响应之间的关系提供了宝贵的资源。此外，数据集的编码方式使得研究者能够精确分析和比较不同交互中的细微差异，从而推动对话系统在自然性和用户理解方面的研究。

使用方法

CRD数据集适用于多种研究场景，特别是在对话系统、自然语言处理和用户行为分析领域。研究者可以通过分析不同角色扮演场景下的交互数据，评估ChatGPT在特定情境中的表现，并探讨用户动机对模型响应的影响。此外，数据集的编码信息可用于训练和验证新的模型，以提高对话系统的自然性和用户理解能力。使用时，研究者应参考提供的编码指南，确保数据的正确解读和应用。

背景与挑战

背景概述

ChatGPT Roleplay Dataset (CRD) 是由PortNLP研究组开发，旨在分析用户动机与模型自然性的对话数据集。该数据集的核心研究问题围绕ChatGPT在不同角色扮演场景中的表现，以及用户在这些交互中的动机和模型响应的自然度。CRD数据集包括三种主要场景：无特定角色扮演指令的交互（vanilla.csv）、ChatGPT扮演用户上司的交互（boss.csv），以及ChatGPT扮演用户同学的交互（classmate.csv）。该研究得到了国家科学基金会的资助，并在LREC-COLING 2024会议上被接受展示，显示出其在自然语言处理领域的潜在影响力。

当前挑战

CRD数据集在构建过程中面临多项挑战。首先，如何准确捕捉和编码用户在不同角色扮演场景中的动机是一个复杂的问题，这要求对用户意图的深入理解和细致分析。其次，评估ChatGPT响应的自然性需要建立一套有效的评估标准，以确保模型输出的流畅性和真实感。此外，数据集的多样性和代表性也是一个关键挑战，确保不同角色和场景的交互能够覆盖广泛的用户需求和情境。这些挑战不仅影响了数据集的质量，也对未来类似研究提出了更高的要求。

常用场景

经典使用场景

ChatGPT Roleplay Dataset (CRD) 数据集的经典使用场景主要集中在对话系统与角色扮演的交互分析上。该数据集通过提供不同角色（如老板、同学）的对话样本，使得研究者能够深入探讨ChatGPT在特定角色设定下的表现，尤其是在理解用户动机和模型自然性方面的能力。这种场景不仅有助于提升对话系统的角色适应性，还能为多角色对话系统的开发提供宝贵的实验数据。

衍生相关工作

CRD数据集的发布催生了一系列相关研究工作，特别是在对话系统与角色扮演领域的深入探索。例如，有研究者利用该数据集开发了新的模型评估指标，以更精确地衡量对话系统在不同角色设定下的表现。此外，还有工作探讨了如何通过迁移学习技术，将CRD数据集中的角色扮演经验应用于其他对话场景。这些衍生研究不仅丰富了对话系统的理论基础，也为实际应用提供了新的技术路径。

数据集最近研究