nazlicanto/persona-based-chat
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nazlicanto/persona-based-chat
下载链接
链接失效反馈官方服务:
资源简介:
Persona Based Commonsense Dialogue Dataset是一个包含64,258个对话的数据集,旨在增强个性化对话文本生成模型,使其在生成的响应中能够一致地反映角色的个性。每个对话都反映了两个角色之间的交流,展示了个人特征、背景和叙事如何影响对话流程和响应生成。数据字段包括对话的唯一标识符、角色B的个性事实列表、对话轮次列表以及基于角色B视角的参考响应。数据集的创建结合了半手工制作的基于个性的聊天生成数据集和Google Research的Synthetic Persona Chat数据集的部分改写和工程化版本,使用了ChatGPT-3.5和Claude进行改写,并手动整理了结果。
Persona Based Commonsense Dialogue Dataset是一个包含64,258个对话的数据集,旨在增强个性化对话文本生成模型,使其在生成的响应中能够一致地反映角色的个性。每个对话都反映了两个角色之间的交流,展示了个人特征、背景和叙事如何影响对话流程和响应生成。数据字段包括对话的唯一标识符、角色B的个性事实列表、对话轮次列表以及基于角色B视角的参考响应。数据集的创建结合了半手工制作的基于个性的聊天生成数据集和Google Research的Synthetic Persona Chat数据集的部分改写和工程化版本,使用了ChatGPT-3.5和Claude进行改写,并手动整理了结果。
提供机构:
nazlicanto
原始信息汇总
数据集概述
数据集名称
Persona Based Commonsense Dialogue Dataset
数据集信息
- 语言: 英语
- 许可证: CC
- 任务类别: 文本生成
数据集特征
- conv_id: 字符串类型,每个对话的唯一标识符。
- persona_b: 字符串序列,描述persona B的属性和经历。
- dialogue: 字符串序列,包含对话轮次,每个对话以Persona A的响应开始和结束。
- reference: 字符串类型,基于persona B的视角和给定对话的参考响应。
数据集划分
- 训练集:
- 数据量: 75615979字节
- 样本数: 64192
- 下载大小: 37368534字节
数据集创建
该数据集结合了半手动创建的基于角色的聊天生成数据集和部分改写及工程化的Synthetic Persona Chat数据集。改写和数据集生成使用了ChatGPT-3.5和Claude,并进行了手动精选。
搜集汇总
数据集介绍

构建方式
该数据集的构建融合了半手工打造的基于角色的对话生成数据集与部分改写和工程化的[Synthetic Persona Chat数据集](https://github.com/google-research-datasets/Synthetic-Persona-Chat/)。通过使用ChatGPT-3.5和Claude进行改写和数据集生成,并结合人工筛选和优化,确保了对话内容与角色特征的高度一致性。每段对话均围绕两个角色的互动展开,旨在通过角色的背景和个性特征影响对话的生成和流。
使用方法
该数据集适用于文本生成任务,特别是基于角色特征的对话生成模型训练。使用者可以通过提供的对话标识符、角色特征描述、对话内容和参考回复来训练模型,使其能够生成符合角色特征的对话。数据集的结构化设计使得模型能够学习如何在多轮对话中保持角色的一致性,从而提升对话生成的质量和个性化。
背景与挑战
背景概述
基于角色的对话生成是自然语言处理领域的一个重要分支,旨在通过模拟特定角色的对话来提升文本生成的个性化和连贯性。nazlicanto/persona-based-chat数据集由64,258段对话组成,专门设计用于增强个性化对话生成模型,使其在多轮对话中能够持续反映角色的个性特征。该数据集结合了半手工构建的角色对话生成数据集与Google Research的Synthetic Persona Chat数据集的改写版本,通过ChatGPT-3.5和Claude进行数据生成与手动校对,旨在为对话系统提供更丰富的角色背景和对话情境。
当前挑战
该数据集面临的挑战主要集中在两个方面:一是如何确保生成的对话在多轮交互中始终保持角色的个性一致性,这需要复杂的模型设计和精细的数据标注;二是数据集的构建过程中,如何有效利用自动化工具进行数据改写和生成,同时确保改写后的对话仍然符合原始角色的语境和个性特征。此外,数据集的规模和多样性也对模型的训练和评估提出了更高的要求,需要平衡数据量与质量之间的关系。
常用场景
经典使用场景
基于角色的对话数据集(Persona Based Commonsense Dialogue Dataset)主要用于个性化对话生成模型的训练与评估。该数据集通过提供包含角色背景信息的对话样本,帮助模型在生成对话时能够更好地反映角色的个性特征。经典使用场景包括构建能够根据角色背景生成连贯、个性化回复的对话系统,尤其是在多轮对话中保持角色一致性方面表现尤为突出。
解决学术问题
该数据集解决了对话生成领域中角色一致性这一关键学术问题。传统对话模型在多轮对话中往往难以维持角色的个性特征,导致生成的回复缺乏连贯性和个性化。Persona Based Commonsense Dialogue Dataset通过提供角色背景信息和多轮对话样本,使得模型能够在生成对话时更好地捕捉和反映角色的个性,从而提升了对话系统的自然度和用户体验。
实际应用
在实际应用中,该数据集可广泛用于开发个性化聊天机器人、虚拟助手以及在线客服系统。通过利用角色背景信息,这些系统能够生成更具个性化和连贯性的回复,从而提升用户交互体验。例如,在社交娱乐应用中,基于角色背景的对话系统可以为用户提供更具沉浸感的互动体验,增强用户粘性。
数据集最近研究
最新研究方向
在自然语言处理领域,基于角色的对话生成技术近年来备受关注。nazlicanto/persona-based-chat数据集的推出,为个性化对话生成模型的研究提供了新的视角。该数据集通过结合半手工构建的角色对话数据和部分改写自Google Research的Synthetic Persona Chat数据集,旨在提升模型在多轮对话中保持角色一致性的能力。这一研究方向不仅有助于深化对角色驱动对话生成的理解,还为开发更加自然和连贯的对话系统提供了实践基础。随着对话系统在虚拟助手、在线客服等领域的广泛应用,该数据集的贡献将推动相关技术的前沿发展,并对提升用户体验产生深远影响。
以上内容由遇见数据集搜集并总结生成



