CharacterRAG

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/naruto-soop/CharacterRAG

下载链接

链接失效反馈

官方服务：

资源简介：

CharacterRAG数据集是一个用于RAG（检索增强生成）基角色扮演代理的高质量数据集，包含15个不同虚构角色的个人文档，总计约976,000个字符，以及450个问题-答案对。

The CharacterRAG dataset is a high-quality dataset designed for Retrieval-Augmented Generation (RAG)-based role-playing agents. It contains personal documents of 15 distinct fictional characters, totaling approximately 976,000 characters, and includes 450 question-answer pairs.

创建时间：

2025-08-07

原始信息汇总

CharacterRAG数据集概述

基本信息

许可证: Apache-2.0
语言: 韩语 (ko)

数据集简介

CharacterRAG是一个高质量的数据集，专为基于RAG的角色扮演代理设计。包含以下内容：

15个独特虚构角色的个人资料文档，总计976K字符。
450个问答对。

数据集特点

所有可能影响角色一致性的外部信息（如角色人气投票）已由人工标注者手动移除。

数据集结构

数据集按角色名称组织，每个角色包含两个文件：

[角色名].txt: 角色个人资料文档。
[角色名].xlsx: 问答对。

包含的角色目录：

anya_forger
chika_fujiwara
edward_elric
frieren
hitori_gotoh
light_yagami
maomao
megumin
mikoto_misaka
nina_iseri
saitama
son_goku
tanjiro_kamado
tobio_kageyama
yui_hirasawa

引用信息

bibtex @misc{park2025dynamiccontextadaptationconsistent, title={Dynamic Context Adaptation for Consistent Role-Playing Agents with Retrieval-Augmented Generations}, author={Jeiyoon Park and Yongshin Han and Minseop Kim and Kisu Yang}, year={2025}, eprint={2508.02016}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.02016}, }

搜集汇总

数据集介绍

构建方式

CharacterRAG数据集构建过程体现了对角色扮演智能体领域的高标准要求。研究团队精心挑选了15个具有代表性的虚构角色，通过人工标注方式构建了总规模达976K字符的人物档案文档。为确保角色设定的一致性，人工标注过程中严格剔除了可能影响角色特征的外部信息，如角色人气投票等干扰因素。数据集采用模块化结构设计，每个角色独立存储为文本格式的人物档案和Excel格式的问答对，这种构建方式既保证了数据的完整性，又便于后续的扩展和维护。

特点

该数据集最显著的特点在于其高质量的标注内容和精细的角色刻画。450组精心设计的问答对覆盖了各类可能的交互场景，为角色扮演智能体提供了丰富的训练素材。人物档案文档深度挖掘了每个角色的背景故事、性格特征和行为模式，总字符数接近百万量级，为构建一致性角色扮演系统奠定了坚实基础。数据集采用韩语标注，填补了非英语角色扮演数据资源的空白，其模块化的存储结构也为研究者提供了灵活的数据调用方式。

使用方法

使用CharacterRAG数据集时，研究者可依据具体需求灵活调用不同模块。人物档案文档可直接用于检索增强生成系统的知识库构建，而结构化存储的问答对则为模型训练和评估提供了标准参照。实践应用中，建议先通过文本档案深入理解角色特征，再结合问答对验证角色扮演的一致性表现。数据集采用Apache-2.0许可协议，支持学术研究和商业应用，引用时请遵循提供的文献格式，以确保学术规范的完整性。

背景与挑战

背景概述

CharacterRAG数据集由Park等人于2025年提出，旨在为基于检索增强生成（RAG）技术的角色扮演智能体提供高质量数据支持。该数据集收录了15个虚构角色的详细人物设定文档，总计达976K字符，并包含450组问答对，由研究人员通过人工标注精心构建。其核心研究问题聚焦于如何通过动态上下文适应机制，提升角色扮演智能体在对话过程中的人物一致性表现。作为首个专门针对RAG角色扮演任务设计的开源数据集，CharacterRAG为对话系统领域的人物一致性研究提供了重要基准，推动了生成式人工智能在角色扮演应用中的发展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，虚构角色的人物一致性建模存在复杂性，需要准确捕捉角色特质、语言风格及行为逻辑之间的多维关联；问答对需覆盖角色认知的广度和深度，避免生成偏离人物设定的响应。在构建过程中，人工标注需严格剔除可能影响人物一致性的外部信息（如角色人气投票结果），这对标注者的领域知识深度与标注规范执行提出较高要求。此外，如何平衡人物文档的详尽程度与检索效率，以及确保问答对在开放式对话场景中的泛化能力，均是数据集构建中需要解决的关键问题。

常用场景

经典使用场景

在角色扮演智能体开发领域，CharacterRAG数据集凭借其高质量的虚构角色人物文档和问答对，成为构建基于检索增强生成（RAG）技术的角色扮演系统的核心资源。研究者通过调用15个经典虚构角色的976K文本特征数据，能够精准模拟不同角色的语言风格和行为模式，为对话系统赋予鲜明的角色个性。

实际应用

在虚拟偶像运营和互动娱乐产业中，CharacterRAG支持开发具有持续人格特征的数字角色。教育领域利用其构建历史人物教学助手，保持人物应答的历史准确性；游戏行业则依托该数据集打造NPC对话系统，使非玩家角色呈现符合设定的语言特征，显著提升沉浸式体验。

衍生相关工作

基于CharacterRAG的基准测试催生了多项创新研究，包括动态角色记忆网络架构和跨模态人物一致性保持算法。Park等人提出的语境自适应框架被广泛应用于后续研究，其构建的评估标准已成为衡量角色扮演系统表现的重要范式，推动了人格化AI的标准化发展进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集