CharacterRAG
收藏Hugging Face2025-08-07 更新2025-08-08 收录
下载链接:
https://huggingface.co/datasets/naruto-soop/CharacterRAG
下载链接
链接失效反馈官方服务:
资源简介:
CharacterRAG数据集是一个用于RAG(检索增强生成)基角色扮演代理的高质量数据集,包含15个不同虚构角色的个人文档,总计约976,000个字符,以及450个问题-答案对。
The CharacterRAG dataset is a high-quality dataset designed for Retrieval-Augmented Generation (RAG)-based role-playing agents. It contains personal documents of 15 distinct fictional characters, totaling approximately 976,000 characters, and includes 450 question-answer pairs.
创建时间:
2025-08-07
原始信息汇总
CharacterRAG数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 韩语 (ko)
数据集简介
CharacterRAG是一个高质量的数据集,专为基于RAG的角色扮演代理设计。包含以下内容:
- 15个独特虚构角色的个人资料文档,总计976K字符。
- 450个问答对。
数据集特点
- 所有可能影响角色一致性的外部信息(如角色人气投票)已由人工标注者手动移除。
数据集结构
数据集按角色名称组织,每个角色包含两个文件:
[角色名].txt: 角色个人资料文档。[角色名].xlsx: 问答对。
包含的角色目录:
- anya_forger
- chika_fujiwara
- edward_elric
- frieren
- hitori_gotoh
- light_yagami
- maomao
- megumin
- mikoto_misaka
- nina_iseri
- saitama
- son_goku
- tanjiro_kamado
- tobio_kageyama
- yui_hirasawa
引用信息
bibtex @misc{park2025dynamiccontextadaptationconsistent, title={Dynamic Context Adaptation for Consistent Role-Playing Agents with Retrieval-Augmented Generations}, author={Jeiyoon Park and Yongshin Han and Minseop Kim and Kisu Yang}, year={2025}, eprint={2508.02016}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.02016}, }
搜集汇总
数据集介绍

构建方式
CharacterRAG数据集构建过程体现了对角色扮演智能体领域的高标准要求。研究团队精心挑选了15个具有代表性的虚构角色,通过人工标注方式构建了总规模达976K字符的人物档案文档。为确保角色设定的一致性,人工标注过程中严格剔除了可能影响角色特征的外部信息,如角色人气投票等干扰因素。数据集采用模块化结构设计,每个角色独立存储为文本格式的人物档案和Excel格式的问答对,这种构建方式既保证了数据的完整性,又便于后续的扩展和维护。
特点
该数据集最显著的特点在于其高质量的标注内容和精细的角色刻画。450组精心设计的问答对覆盖了各类可能的交互场景,为角色扮演智能体提供了丰富的训练素材。人物档案文档深度挖掘了每个角色的背景故事、性格特征和行为模式,总字符数接近百万量级,为构建一致性角色扮演系统奠定了坚实基础。数据集采用韩语标注,填补了非英语角色扮演数据资源的空白,其模块化的存储结构也为研究者提供了灵活的数据调用方式。
使用方法
使用CharacterRAG数据集时,研究者可依据具体需求灵活调用不同模块。人物档案文档可直接用于检索增强生成系统的知识库构建,而结构化存储的问答对则为模型训练和评估提供了标准参照。实践应用中,建议先通过文本档案深入理解角色特征,再结合问答对验证角色扮演的一致性表现。数据集采用Apache-2.0许可协议,支持学术研究和商业应用,引用时请遵循提供的文献格式,以确保学术规范的完整性。
背景与挑战
背景概述
CharacterRAG数据集由Park等人于2025年提出,旨在为基于检索增强生成(RAG)技术的角色扮演智能体提供高质量数据支持。该数据集收录了15个虚构角色的详细人物设定文档,总计达976K字符,并包含450组问答对,由研究人员通过人工标注精心构建。其核心研究问题聚焦于如何通过动态上下文适应机制,提升角色扮演智能体在对话过程中的人物一致性表现。作为首个专门针对RAG角色扮演任务设计的开源数据集,CharacterRAG为对话系统领域的人物一致性研究提供了重要基准,推动了生成式人工智能在角色扮演应用中的发展。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,虚构角色的人物一致性建模存在复杂性,需要准确捕捉角色特质、语言风格及行为逻辑之间的多维关联;问答对需覆盖角色认知的广度和深度,避免生成偏离人物设定的响应。在构建过程中,人工标注需严格剔除可能影响人物一致性的外部信息(如角色人气投票结果),这对标注者的领域知识深度与标注规范执行提出较高要求。此外,如何平衡人物文档的详尽程度与检索效率,以及确保问答对在开放式对话场景中的泛化能力,均是数据集构建中需要解决的关键问题。
常用场景
经典使用场景
在角色扮演智能体开发领域,CharacterRAG数据集凭借其高质量的虚构角色人物文档和问答对,成为构建基于检索增强生成(RAG)技术的角色扮演系统的核心资源。研究者通过调用15个经典虚构角色的976K文本特征数据,能够精准模拟不同角色的语言风格和行为模式,为对话系统赋予鲜明的角色个性。
实际应用
在虚拟偶像运营和互动娱乐产业中,CharacterRAG支持开发具有持续人格特征的数字角色。教育领域利用其构建历史人物教学助手,保持人物应答的历史准确性;游戏行业则依托该数据集打造NPC对话系统,使非玩家角色呈现符合设定的语言特征,显著提升沉浸式体验。
衍生相关工作
基于CharacterRAG的基准测试催生了多项创新研究,包括动态角色记忆网络架构和跨模态人物一致性保持算法。Park等人提出的语境自适应框架被广泛应用于后续研究,其构建的评估标准已成为衡量角色扮演系统表现的重要范式,推动了人格化AI的标准化发展进程。
以上内容由遇见数据集搜集并总结生成



