five

BeyondDialogue|角色扮演数据集|对话推理数据集

收藏
huggingface2024-08-29 更新2024-12-12 收录
角色扮演
对话推理
下载链接:
https://huggingface.co/datasets/yuyouyu/BeyondDialogue
下载链接
链接失效反馈
资源简介:
Beyond Dialogue Role-Playing Dataset是一个全面的数据集,旨在推动角色扮演模型研究。该数据集包含从小说中提取的真实角色对话数据,以及超越简单对话交换的复杂推理任务。数据集支持中文和英文,包含多个配置文件,每个配置文件对应不同的数据文件。数据集的统计信息显示,该数据集具有多语言、多轮对话的特点,并且角色和对话会话数量丰富。
创建时间:
2024-08-29
原始信息汇总

Beyond Dialogue Role-playing Dataset

概述

Beyond Dialogue Role-Playing Dataset 是一个全面的角色扮演模型研究数据集,包含以下特点:

  • 真实角色对话数据:从小说中提取的真实对话,包含角色之间丰富的上下文交互。
  • 超越对话的对齐推理任务:除了对话,数据集还包括对齐推理任务,挑战模型进行复杂的推理,超越简单的对话交换。

数据文件结构

  • 角色扮演数据
    • RPA_CN_SFT.jsonRPA_EN_SFT.json:包含中英文的对齐角色扮演对话。
    • RP_CN_SFT.jsonRP_EN_SFT.json:包含中英文的非对齐角色扮演对话。
  • 对齐任务
    • CSERP_CN_SFT.jsonCSERP_EN_SFT.json:包含中英文的角色、风格、情感、关系和个性维度的对齐推理任务。
  • 对话块
    • ChunkDialogues_CNChunkDialogues_EN:包含中英文的角色资料和对话,以及对话源块。

数据集统计

  • 从123本中英文小说或剧本中提取了280个中文角色和31个英文角色。
  • 总共获得了3,552个场景对话会话,包含23,247个对话轮次。

下载

可以通过以下代码从Hugging Face Datasets Hub下载数据集: bash git lfs install git clone https://huggingface.co/datasets/yuyouyu/BeyondDialogue

python from datasets import load_dataset

dataset = load_dataset("yuyouyu/BeyondDialogue")

引用

如果使用此数据集,请引用以下论文: bibtex @article{yu2024beyond, title = {BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model}, author = {Yu, Yeyong and Yu, Runsheng and Wei, Haojie and Zhang, Zhanqiu and Qian, Quan}, year = {2024}, journal = {arXiv preprint arXiv:2408.10903} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
BeyondDialogue数据集的构建基于从小说中提取的真实角色对话数据,涵盖了中英文两种语言。通过从123部中英文小说或剧本中提取280个中文角色和31个英文角色,构建了3552个场景对话,共计23247个对话轮次。此外,数据集还包含了角色、风格、情感、关系和个性五个维度的对齐推理任务,进一步丰富了数据集的复杂性。
使用方法
BeyondDialogue数据集可通过Hugging Face Datasets Hub下载,用户可以使用`git clone`命令或`load_dataset`函数加载数据集。数据集文件结构清晰,包含角色扮演对话和对齐推理任务两部分,分别以JSON格式存储。用户可以根据需要选择中文或英文数据进行模型训练或评估,具体使用方法可参考数据集提供的论文和GitHub仓库。
背景与挑战
背景概述
BeyondDialogue数据集由Yeyong Yu等人于2024年提出,旨在推动角色扮演语言模型的研究。该数据集主要来源于小说中的真实对话,涵盖了280个中文角色和31个英文角色,总计3552个对话场景和23247个对话轮次。通过引入角色-对话对齐任务,BeyondDialogue不仅提供了丰富的多轮对话数据,还扩展了模型在角色特征、风格、情感、关系和个性等多维度的推理能力。该数据集的开源特性及其多语言支持使其在角色扮演模型的研究中具有广泛的应用前景,并为相关领域的研究者提供了宝贵的资源。
当前挑战
BeyondDialogue数据集在构建过程中面临多重挑战。首先,从小说中提取真实对话并确保其与角色特征的对齐是一项复杂的任务,需要精确的文本分析和标注。其次,数据集的多语言特性增加了数据处理的难度,尤其是在保持不同语言间一致性的同时,确保数据的质量和多样性。此外,对齐推理任务的引入要求模型不仅能够处理简单的对话,还需具备深层次的推理能力,这对模型的训练和评估提出了更高的要求。这些挑战共同构成了BeyondDialogue数据集在推动角色扮演语言模型研究中的核心难题。
常用场景
经典使用场景
BeyondDialogue数据集在角色扮演语言模型的研究中具有重要应用。该数据集通过从小说中提取的真实角色对话数据,为模型提供了丰富的上下文交互场景。研究者可以利用这些数据训练模型,使其在角色扮演任务中表现出更高的对话质量和情境理解能力。特别是在多轮对话和角色对齐任务中,该数据集为模型提供了复杂的推理挑战,推动了角色扮演模型的进一步发展。
解决学术问题
BeyondDialogue数据集解决了角色扮演语言模型在对话生成和角色对齐方面的关键问题。通过提供真实的角色对话数据和对齐推理任务,该数据集帮助研究者克服了模型在复杂情境下对话生成的困难。特别是在角色性格、情感、关系等多维度的对齐任务中,数据集为模型提供了丰富的训练素材,显著提升了模型在角色扮演任务中的表现。这一数据集的出现,填补了角色扮演模型研究中的数据空白,推动了该领域的学术进展。
实际应用
BeyondDialogue数据集在实际应用中具有广泛的前景。例如,在虚拟助手、游戏角色对话系统以及教育领域的角色扮演教学中,该数据集可以为模型提供真实的对话场景,提升用户体验。特别是在多语言环境下,数据集的中英文双语特性使其能够支持跨语言的对话生成任务。此外,数据集中的对齐推理任务也为模型在复杂情境下的推理能力提供了训练基础,进一步拓展了其在实际应用中的潜力。
数据集最近研究
最新研究方向
在角色扮演语言模型的研究领域,BeyondDialogue数据集通过引入真实小说中的对话数据和对齐推理任务,推动了模型在复杂情境下的推理能力。该数据集不仅包含了丰富的多轮对话,还特别设计了角色、风格、情感、关系和个性五个维度的对齐任务,旨在提升模型在角色扮演中的表现。这一研究方向与当前大语言模型在个性化对话生成和情感计算领域的热点问题密切相关,尤其是在多语言和多角色情境下的应用。通过提供真实且多样化的对话场景,BeyondDialogue为研究者提供了一个全新的视角,以探索角色扮演模型在更广泛场景中的潜力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录