fnlp/character-llm-data

Name: fnlp/character-llm-data
Creator: fnlp
Published: 2023-11-14 13:43:25
License: 暂无描述

Hugging Face2023-11-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fnlp/character-llm-data

下载链接

链接失效反馈

官方服务：

资源简介：

Character-LLM是一个用于训练角色扮演代理的数据集，包含九个角色的经验数据。数据集分为`prompted/`和`generated/`两个目录，前者包含可直接用于监督微调的数据，后者包含由gpt-3.5-turbo生成的原始数据，可以转换为`prompted`风格。数据集的统计信息包括每个角色的场景数量、单词数量和对话轮次等。

Character-LLM is a dataset dedicated to training role-playing AI agents, containing empirical data for nine distinct characters. The dataset is divided into two directories: `prompted/` and `generated/`. The `prompted/` directory holds data directly usable for supervised fine-tuning, while the `generated/` directory contains raw data generated by gpt-3.5-turbo, which can be converted to the `prompted` style. Statistical metrics of the dataset include the number of scenarios, word count, dialogue turns per character, and so on.

提供机构：

fnlp

原始信息汇总

Character-LLM 数据集概述

数据集描述

Character-LLM 数据集包含九个角色的经验数据，用于训练 Character-LLM 模型。

数据下载

数据集可通过以下 Python 代码下载，下载的数据将保存在指定路径 /path/to/local_dir。

python from huggingface_hub import snapshot_download snapshot_download( local_dir_use_symlinks=True, repo_type="dataset", repo_id="fnlp/character-llm-data", local_dir="/path/to/local_dir")

数据结构

数据集包含两个主要部分：

prompted/：可直接用于监督微调的数据集。
generated/：由 gpt-3.5-turbo 生成的原始数据，可转换为 prompted 风格。

数据统计

以下是训练数据的统计信息：

角色名称	场景数量	单词数量	对话轮数
Cleopatra VII	1.4K	723K	14.3
Lord Voldemort	1.4K	599K	13.1
Spartacus	1.4K	646K	12.3
Hermione Granger	1.5K	628K	15.5
Isaac Newton	1.6K	772K	12.6
Julius Caesar	1.6K	820K	12.9
Ludwig van Beethoven	1.6K	663K	12.2
Socrates	1.6K	896K	14.1
Martin Luther King	2.2K	1,038K	12.0
平均值	1.6K	754K	13.2

搜集汇总

数据集介绍

构建方式

在角色扮演智能体研究领域，Character-LLM数据集的构建体现了对高质量角色经验数据的系统性采集。该数据集通过GPT-3.5-turbo模型生成原始对话场景，随后经过结构化处理形成可直接用于监督微调的提示格式。构建过程涵盖了九位具有历史或虚构代表性的角色，包括克利奥帕特拉七世、伏地魔、斯巴达克斯等，每个角色均包含上千个独立场景、数十万词汇量的对话轮次，确保了数据在角色维度的多样性与深度。

特点

该数据集的核心特点在于其精心设计的双目录结构，分别提供可直接使用的提示数据与原始生成数据，为不同阶段的模型训练提供了灵活性。数据规模呈现显著差异，如马丁·路德·金的场景数达到2.2K，词汇量超过百万，而其他角色也保持在1.4K至1.6K场景之间，平均词汇量达754K，这种分布既保证了角色的代表性，又维持了整体平衡。每个角色的对话轮次均稳定在12至15.5轮之间，体现了对话连贯性与复杂度的统一标准。

使用方法

使用该数据集时，研究人员可通过Hugging Face Hub的snapshot_download接口便捷下载，指定本地目录后自动同步数据。对于监督微调任务，可直接调用prompted目录中的结构化数据；若需自定义数据处理流程，则可基于generated目录中的原始生成数据进行转换与增强。该设计支持从快速实验到深度定制的研究需求，为角色扮演语言模型的训练与评估提供了标准化、可复现的数据基础。

背景与挑战

背景概述

在人工智能与自然语言处理领域，角色扮演智能体的构建一直是实现人机深度交互的关键研究方向。由复旦大学自然语言处理实验室（FudanNLP）于近期发布的Character-LLM数据集，旨在为可训练的角色扮演语言模型提供高质量的训练数据。该数据集聚焦于九位具有鲜明特征的历史与虚构人物，通过精心构建的对话场景与丰富文本，致力于解决角色一致性、个性表达与上下文连贯性等核心问题，为推进具身智能与交互式AI的发展提供了重要的数据基础。

当前挑战

Character-LLM数据集所针对的领域挑战在于如何使语言模型在开放域对话中保持特定角色的性格、知识背景与语言风格，这涉及复杂的上下文建模与长期记忆维护。在数据构建过程中，研究人员面临多重困难：一是需确保生成数据的多样性与真实性，避免模型陷入刻板表达；二是大规模高质量角色数据的标注与清洗耗费巨大人力；三是在利用GPT-3.5-turbo等模型生成原始数据时，需设计有效的提示策略以控制内容质量与角色契合度，并后续转化为可直接用于监督微调的结构化格式。

常用场景

经典使用场景

在角色扮演智能体研究领域，Character-LLM数据集为训练可定制化角色语言模型提供了关键支持。该数据集通过涵盖九位历史与虚构人物的对话场景，包括克里奥帕特拉七世、伏地魔、牛顿等，构建了丰富的多轮交互语料。研究者利用这些数据对大型语言模型进行监督微调，使其能够模拟特定角色的语言风格、知识背景与行为逻辑，从而推动角色一致性对话生成技术的发展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在角色自适应对话系统与跨领域人物建模。许多研究借鉴其数据构建方法，扩展至更多元的文化角色或专业领域人物语料库。相关成果包括基于角色知识增强的对话生成框架、多角色交互仿真平台，以及结合人物传记数据与生成式人工智能的混合训练范式，这些工作进一步丰富了角色扮演人工智能的技术生态。

数据集最近研究