BeyondDialogue|角色扮演数据集|对话推理数据集

huggingface2024-08-29 更新2024-12-12 收录

角色扮演

对话推理

下载链接：

https://huggingface.co/datasets/yuyouyu/BeyondDialogue

下载链接

链接失效反馈

资源简介：

Beyond Dialogue Role-Playing Dataset是一个全面的数据集，旨在推动角色扮演模型研究。该数据集包含从小说中提取的真实角色对话数据，以及超越简单对话交换的复杂推理任务。数据集支持中文和英文，包含多个配置文件，每个配置文件对应不同的数据文件。数据集的统计信息显示，该数据集具有多语言、多轮对话的特点，并且角色和对话会话数量丰富。

创建时间：

2024-08-29

原始信息汇总

Beyond Dialogue Role-playing Dataset

概述

Beyond Dialogue Role-Playing Dataset 是一个全面的角色扮演模型研究数据集，包含以下特点：

真实角色对话数据：从小说中提取的真实对话，包含角色之间丰富的上下文交互。
超越对话的对齐推理任务：除了对话，数据集还包括对齐推理任务，挑战模型进行复杂的推理，超越简单的对话交换。

数据文件结构

角色扮演数据
- RPA_CN_SFT.json 和 RPA_EN_SFT.json：包含中英文的对齐角色扮演对话。
- RP_CN_SFT.json 和 RP_EN_SFT.json：包含中英文的非对齐角色扮演对话。
对齐任务
- CSERP_CN_SFT.json 和 CSERP_EN_SFT.json：包含中英文的角色、风格、情感、关系和个性维度的对齐推理任务。
对话块
- ChunkDialogues_CN 和 ChunkDialogues_EN：包含中英文的角色资料和对话，以及对话源块。

数据集统计

从123本中英文小说或剧本中提取了280个中文角色和31个英文角色。
总共获得了3,552个场景对话会话，包含23,247个对话轮次。

下载

可以通过以下代码从Hugging Face Datasets Hub下载数据集： bash git lfs install git clone https://huggingface.co/datasets/yuyouyu/BeyondDialogue

python from datasets import load_dataset

dataset = load_dataset("yuyouyu/BeyondDialogue")

引用

如果使用此数据集，请引用以下论文： bibtex @article{yu2024beyond, title = {BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model}, author = {Yu, Yeyong and Yu, Runsheng and Wei, Haojie and Zhang, Zhanqiu and Qian, Quan}, year = {2024}, journal = {arXiv preprint arXiv:2408.10903} }

AI搜集汇总

数据集介绍

构建方式

BeyondDialogue数据集的构建基于从小说中提取的真实角色对话数据，涵盖了中英文两种语言。通过从123部中英文小说或剧本中提取280个中文角色和31个英文角色，构建了3552个场景对话，共计23247个对话轮次。此外，数据集还包含了角色、风格、情感、关系和个性五个维度的对齐推理任务，进一步丰富了数据集的复杂性。

使用方法

BeyondDialogue数据集可通过Hugging Face Datasets Hub下载，用户可以使用`git clone`命令或`load_dataset`函数加载数据集。数据集文件结构清晰，包含角色扮演对话和对齐推理任务两部分，分别以JSON格式存储。用户可以根据需要选择中文或英文数据进行模型训练或评估，具体使用方法可参考数据集提供的论文和GitHub仓库。

背景与挑战

背景概述

BeyondDialogue数据集由Yeyong Yu等人于2024年提出，旨在推动角色扮演语言模型的研究。该数据集主要来源于小说中的真实对话，涵盖了280个中文角色和31个英文角色，总计3552个对话场景和23247个对话轮次。通过引入角色-对话对齐任务，BeyondDialogue不仅提供了丰富的多轮对话数据，还扩展了模型在角色特征、风格、情感、关系和个性等多维度的推理能力。该数据集的开源特性及其多语言支持使其在角色扮演模型的研究中具有广泛的应用前景，并为相关领域的研究者提供了宝贵的资源。

当前挑战

BeyondDialogue数据集在构建过程中面临多重挑战。首先，从小说中提取真实对话并确保其与角色特征的对齐是一项复杂的任务，需要精确的文本分析和标注。其次，数据集的多语言特性增加了数据处理的难度，尤其是在保持不同语言间一致性的同时，确保数据的质量和多样性。此外，对齐推理任务的引入要求模型不仅能够处理简单的对话，还需具备深层次的推理能力，这对模型的训练和评估提出了更高的要求。这些挑战共同构成了BeyondDialogue数据集在推动角色扮演语言模型研究中的核心难题。

常用场景

经典使用场景

BeyondDialogue数据集在角色扮演语言模型的研究中具有重要应用。该数据集通过从小说中提取的真实角色对话数据，为模型提供了丰富的上下文交互场景。研究者可以利用这些数据训练模型，使其在角色扮演任务中表现出更高的对话质量和情境理解能力。特别是在多轮对话和角色对齐任务中，该数据集为模型提供了复杂的推理挑战，推动了角色扮演模型的进一步发展。

解决学术问题

BeyondDialogue数据集解决了角色扮演语言模型在对话生成和角色对齐方面的关键问题。通过提供真实的角色对话数据和对齐推理任务，该数据集帮助研究者克服了模型在复杂情境下对话生成的困难。特别是在角色性格、情感、关系等多维度的对齐任务中，数据集为模型提供了丰富的训练素材，显著提升了模型在角色扮演任务中的表现。这一数据集的出现，填补了角色扮演模型研究中的数据空白，推动了该领域的学术进展。

实际应用

BeyondDialogue数据集在实际应用中具有广泛的前景。例如，在虚拟助手、游戏角色对话系统以及教育领域的角色扮演教学中，该数据集可以为模型提供真实的对话场景，提升用户体验。特别是在多语言环境下，数据集的中英文双语特性使其能够支持跨语言的对话生成任务。此外，数据集中的对齐推理任务也为模型在复杂情境下的推理能力提供了训练基础，进一步拓展了其在实际应用中的潜力。

数据集最近研究

最新研究方向

在角色扮演语言模型的研究领域，BeyondDialogue数据集通过引入真实小说中的对话数据和对齐推理任务，推动了模型在复杂情境下的推理能力。该数据集不仅包含了丰富的多轮对话，还特别设计了角色、风格、情感、关系和个性五个维度的对齐任务，旨在提升模型在角色扮演中的表现。这一研究方向与当前大语言模型在个性化对话生成和情感计算领域的热点问题密切相关，尤其是在多语言和多角色情境下的应用。通过提供真实且多样化的对话场景，BeyondDialogue为研究者提供了一个全新的视角，以探索角色扮演模型在更广泛场景中的潜力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

集装箱数据集

集装箱数据集，包含3500张1080p集装箱图像以及其编码区的xml标注

AI_Studio 收录

The MaizeGDB

The MaizeGDB（Maize Genetics and Genomics Database）是一个专门为玉米（Zea mays）基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究，为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

DNS-Challenge

深度噪声抑制挑战数据集，包含干净的语音和噪声剪辑，用于训练和评估在有噪声环境下增强语音的模型。

huggingface 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像，这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景，如学校、停车场、道路和游乐场，在不同的光照条件下，包括白天和夜晚。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。