CoSER Dataset

github2025-03-14 更新2025-02-17 收录

下载链接：

https://github.com/Neph0s/CoSER

下载链接

链接失效反馈

官方服务：

资源简介：

CoSER数据集是一个用于协调基于LLM的角色模拟的数据集，包含了从《哈利·波特》系列和《冰与火之歌》系列中提取的示例数据。此外，还提供了一个名为CoSER-Books-Gutenberg的数据集，包含了81本从Project Gutenberg精选的经典书籍。

The CoSER dataset is a dedicated dataset for coordinating large language model (LLM)-based role-play simulations, which contains sample data extracted from the *Harry Potter* and *A Song of Ice and Fire* series. In addition, a supplementary dataset named CoSER-Books-Gutenberg is also provided, including 81 classic books selected from Project Gutenberg.

创建时间：

2025-02-12

原始信息汇总

CoSER数据集概述

数据集简介

CoSER数据集是用于支持“CoSER: Coordinating LLM-Based Persona Simulation of Established Roles”研究的官方数据集。该数据集目前正处于内部安全审查阶段，完整的数据集和模型预计将在2025年2月发布。

数据集内容

数据集包含来自《哈利·波特》系列和《冰与火之歌》系列的一些示例数据，存储在example_data/目录下。
数据集的完整版本因安全审查原因尚未公开。

使用说明

为了帮助理解数据集的实现，已发布未组织的代码，组织化的代码将在2025年2月准备好。
安装依赖：通过执行pip install -r requirements.txt安装必要的依赖。
配置API密钥和基础URL：在config.json文件中设置LLM的api_key和base_url。

数据构建

若要为特定兴趣的书籍构建数据，需要进入data_construction目录并运行python process.py。

数据评估

使用GCA（Given-Circumtance Acting）方法进行评估，可以通过执行python gca_evaluation/eval_reproduce.py来进行。

搜集汇总

数据集介绍

构建方式

CoSER数据集的构建涉及从特定文本中提取角色和情境信息，进而模拟既定角色的语言行为。目前，数据集正在内部审查中，以确保安全性和可靠性。审查完毕后，预计于2025年2月发布完整数据集和模型。当前，已提供部分示例数据，源自《哈利·波特》系列和《冰与火之歌》系列，以及数据构建的示例代码，用户可根据兴趣自行构建数据。

特点

CoSER数据集的特点在于其专注于模拟既定角色的语言行为，提供了一种新的角色模拟方法。数据集的安全性审查保证了其应用的安全性和可靠性。此外，数据集的构建方法允许用户自定义书籍来源，增加了数据的多样性和适用性。

使用方法

使用CoSER数据集，用户首先需要配置LLM的api_key和base_url在config.json文件中。随后，安装必要的依赖项，并可通过运行提供的脚本构建数据集。数据集的评价可通过GCA（Given-Circumtance Acting）方法进行，具体执行相关脚本即可完成评估过程。完整的数据集和模型预计将在2025年2月审查通过后对外发布。

背景与挑战

背景概述

CoSER数据集，即“Coordinating LLM-Based Persona Simulation of Established Roles”，是一项专注于利用大型语言模型（LLM）模拟特定角色的数据集。该数据集由相关研究人员和机构开发，旨在通过模拟经典文学作品中的角色，推动自然语言处理和角色模拟技术的发展。创建于近期，具体创建时间尚未明确，但预计将在2025年二月完成安全审查后公开完整数据集。该数据集的核心研究问题是如何协调LLM以模拟已确立的角色，对自然语言处理、角色模拟以及文学研究领域产生了显著影响。

当前挑战

CoSER数据集在构建过程中面临的主要挑战包括：1) 如何确保LLM模拟的角色行为与原文学作品中的角色特征相吻合；2) 如何处理数据集的安全性问题，避免不当使用导致的潜在风险。此外，构建过程中还需解决如何高效地从文学作品中提取角色特征，以及如何评价和验证模拟结果的准确性等实际问题。

常用场景

经典使用场景

在自然语言处理领域，模仿学习是构建人工智能模型的重要方法之一。CoSER数据集为此提供了强有力的支持，其经典使用场景在于模拟既定角色的语言行为，以训练大型语言模型更好地理解和生成符合特定角色的文本。

解决学术问题

CoSER数据集解决了学术研究中如何高效模拟特定角色语言表达的问题，对于提升语言模型在角色扮演任务中的表现具有显著意义。它通过提供丰富的角色相关文本数据，使得研究者在进行模型训练时能够更精确地定位到角色特征，进而提高模型的生成质量和准确性。

衍生相关工作

CoSER数据集的发布促进了相关领域的研究，如角色模拟、对话系统、自然语言生成等，衍生出了一系列经典工作。这些研究不仅基于CoSER数据集对模型进行了改进，还扩展了数据集的应用范围，推动了整个领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集