CoSER

Name: CoSER
Creator: 复旦大学, StepFun, 约翰霍普金斯大学
Published: 2025-02-13 16:55:24
License: 暂无描述

arXiv2025-02-13 更新2025-02-15 收录

下载链接：

https://github.com/Neph0s/CoSER

下载链接

链接失效反馈

官方服务：

资源简介：

CoSER数据集包含来自771部著名文学作品的17,966个角色的真实对话和丰富多样的数据类型，如对话场景、角色经验、内心思想等。该数据集通过LLM处理书籍内容而创建，旨在为角色扮演语言模型（RPLAs）的研究和应用提供高质量的原始数据。数据集涵盖了全面的角色描述、对话、场景背景、角色动机和情节概要，能够支撑角色扮演模型的训练、评估和检索。

The CoSER dataset contains authentic dialogues and diverse data types (such as dialogue scenes, character experiences, inner thoughts, etc.) of 17,966 characters sourced from 771 renowned literary works. Constructed by processing book contents with LLMs, this dataset is designed to provide high-quality raw data for the research and application of Role-Playing Language Models (RPLAs). Covering comprehensive character descriptions, dialogues, scene backgrounds, character motivations and plot summaries, the dataset can support the training, evaluation and retrieval of role-playing models.

提供机构：

复旦大学, StepFun, 约翰霍普金斯大学

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

CoSER数据集的构建基于771部著名书籍中的叙事和对话，通过基于LLM的管道进行处理。该数据集包含17,966个角色，涵盖了29,798个真实的对话，以及对话设置、角色经历和内心想法等多种数据类型。为了保持源的真实性和复杂性，CoSER从文学作品中提取了多角色的对话，而不是使用LLM合成的问答对。此外，CoSER还包含了情节摘要、角色经历和对话背景等全面的数据类型，支持各种用途，包括提示、检索、模型训练和评估。

特点

CoSER数据集的特点在于其真实性和全面性。它提供了来自著名书籍的真实的对话，这些对话具有现实世界的复杂性，同时还包含了丰富的数据类型，如对话设置、角色经历和内心想法等。CoSER还引入了“给定情境表演”（GCA）方法，该方法借鉴了表演方法，通过让LLM依次扮演多个角色来训练和评估角色扮演能力。此外，CoSER还开发了CoSER 8B和CoSER 70B等先进的开放角色扮演LLM，这些模型在多个RPLA基准测试中表现出色。

使用方法

使用CoSER数据集的方法主要包括数据准备、模型训练和评估。首先，使用LLM-based管道从书籍中提取情节、对话和角色数据。然后，使用GCA方法训练LLM模型，让模型依次扮演对话中的每个角色。在评估阶段，使用GCA评估方法，通过多智能体模拟和基于惩罚的LLM评判，对模型的表演能力进行全面评估。CoSER数据集、模型和评估脚本都可以在https://github.com/Neph0s/CoSER上获得。

背景与挑战

背景概述

在大型语言模型（LLM）的快速发展背景下，角色扮演语言代理（RPLA）作为一种新兴应用，受到了广泛关注。然而，模拟现有角色对于RPLA来说是一项具有挑战性的任务，主要因为缺乏真实角色数据集和细微的评估方法。CoSER数据集的创建旨在解决这一挑战。该数据集由复旦大学和StepFun的Xintao Wang等人于2025年2月13日发布，包含了来自771本著名书籍的17,966个角色的真实对话，以及各种数据类型，如对话设置、角色经历和内心想法。CoSER数据集的创建旨在为RPLA的训练、评估和检索提供高质量的、真实的数据，并在此基础上开发了CoSER 8B和CoSER 70B两个先进的开放角色扮演LLM模型。CoSER数据集的发布对相关领域产生了重要影响，为RPLA的研究和应用提供了有力支持。

当前挑战

CoSER数据集和相关模型在RPLA领域面临着一些挑战。首先，数据集的构建过程中需要解决如何从大量书籍中提取高质量、真实对话的问题。其次，如何评估LLM模拟复杂角色的能力也是一个挑战。传统的评估方法通常关注与预定义问题集的单轮互动，并依赖于LLM判断或多项选择题，但这些方法可能无法全面评估LLM的复杂角色扮演能力。CoSER数据集和相关模型在解决这些挑战方面取得了重要进展，但仍需进一步研究和改进。

常用场景

经典使用场景

CoSER数据集主要用于角色扮演语言代理（RPLA）的研究和开发，特别是对于已知角色的模拟。通过使用CoSER数据集，研究者可以训练和评估RPLA在模拟经典文学作品中的角色时的表现。CoSER数据集提供了丰富的对话数据，包括角色对话、情节摘要、角色经历和内心想法，这些数据类型有助于RPLA更真实地模拟人类的认知和行为过程。CoSER数据集的使用有助于推动RPLA技术的进步，并为角色扮演相关的应用提供数据支持。

衍生相关工作

CoSER数据集的发布推动了角色扮演语言代理（RPLA）领域的研究和开发。基于CoSER数据集，研究者开发了CoSER 8B和CoSER 70B等先进的开放角色扮演LLM。这些模型在CoSER数据集和其他基准测试中表现出色，为RPLA的研究和应用提供了新的思路和方法。此外，CoSER数据集还促进了基于给定情境的表演（GCA）方法的发展，这种方法为训练和评估角色扮演LLM提供了一种新的思路。

数据集最近研究