CoSER
收藏Hugging Face2025-02-27 更新2025-02-28 收录
下载链接:
https://huggingface.co/datasets/Neph0s/CoSER
下载链接
链接失效反馈官方服务:
资源简介:
CoSER数据集是一个从771部著名小说中提取的高质量角色扮演语言模型数据集。它包含真实的多人、多轮对话,保持了原著作品的高保真度。数据集包括角色概况、对话、剧情摘要、角色经历和对话背景等全面的数据类型。此外,它还捕捉了角色在消息中的内心想法和物理行为,提供了丰富的上下文信息,使得角色扮演语言模型能够在这些场景中进行合理的模拟,这种模拟被称为给定情境表演(GCA)。
创建时间:
2025-02-25
搜集汇总
数据集介绍

构建方式
CoSER数据集的构建,是以771部知名小说为源泉,从中提炼出真实的多轮、多角色对话。这些对话源自于文学巨著,不仅保持了原著的高度忠实,而且天然具备多轮对话和角色互动的复杂性及多样性。
特点
CoSER数据集的显著特征在于其内容的真实性,对话直接取自文学作品,而非合成,从而保证了与原著的高度一致。数据集涵盖了角色资料、对话、情节摘要、角色体验和对话背景等多种数据类型,同时记录了角色内部思想和物理行为,为角色扮演模型提供了丰富的情境信息。
使用方法
数据集以JSON格式存储,提供了训练和评估角色扮演模型所需的丰富语境。使用时,可以直接加载JSON文件,并利用数据集提供的200个测试样本进行模型测试。需要注意的是,数据集已进行安全检查,移除了可能存在问题的内容,确保使用安全。
背景与挑战
背景概述
CoSER数据集,源于771部著名小说,为角色扮演型大型语言模型(LLM)提供了一份高质量的训练资源。该数据集的创建可追溯至2025年,由Xintao Wang等研究人员构建,旨在通过提取真实的多轮、多角色对话,以维持与原著作品的高度保真。CoSER的构建不仅丰富了角色扮演LLM的训练数据类型,而且为相关领域如自然语言处理、文学研究及人工智能的应用提供了新的视角和工具,对推动交互式人工智能发展具有重要的影响力。
当前挑战
CoSER数据集在构建和应用过程中所面临的挑战主要体现在两个方面:一是确保对话的真实性和多样性的同时,避免包含不当内容,为此研究团队进行了安全检查,对敏感对话进行了处理;二是数据集的复杂性和大规模特性使得其难以通过常规的数据查看工具进行有效浏览,这对数据集的使用和研究提出了更高的技术要求。此外,如何在角色扮演LLM中准确模拟复杂的给定情境(Given-Circumstance Acting, GCA),也是当前研究的一个重要挑战。
常用场景
经典使用场景
在自然语言处理与文学研究领域,CoSER数据集凭借其源于经典文学作品的原始多轮对话,成为构建与评估角色扮演大型语言模型(LLM)的重要资源。该数据集支持研究者在Given-Circumstance Acting(GCA)框架下,进行角色模拟训练与评估,促进语言模型在复杂对话场景中的表现力与自然度。
解决学术问题
CoSER数据集解决了角色扮演对话中缺乏真实语境与深度角色性格的问题,为学术研究提供了包含角色背景、内心活动与行为描述的全面信息,从而提升了模型对角色扮演的理解与生成质量,对推动角色模拟技术的发展具有显著意义。
衍生相关工作
基于CoSER数据集,已衍生出一系列研究工作,如构建具有深层次角色理解能力的语言模型、开发新型对话系统评估方法等,这些研究进一步扩展了数据集的应用边界,丰富了角色模拟领域的理论体系与实践成果。
以上内容由遇见数据集搜集并总结生成



