RAIDEN-R1
收藏arXiv2025-05-15 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.10218v1
下载链接
链接失效反馈官方服务:
资源简介:
RAIDEN-R1 是一个高质量的角色感知思维链数据集,专为角色扮演对话代理(RPCA)的监督微调(SFT)而构建。该数据集通过多LLM协作生成,旨在解决RPCA训练中角色漂移问题,提高角色一致性。数据集包含了丰富的角色信息,通过多阶段训练策略,使模型能够在对话中保持角色的连贯性和一致性。
RAIDEN-R1 is a high-quality role-aware chain-of-thought dataset designed for supervised fine-tuning (SFT) of role-playing conversation agents (RPCA). Generated via multi-LLM collaboration, this dataset aims to address the role drift issue in RPCA training and enhance role consistency. It features rich role-related information and adopts a multi-stage training strategy, enabling models to maintain the coherence and consistency of their assigned roles throughout conversations.
提供机构:
腾讯平台与内容群组, 北京大学软件与微电子学院
创建时间:
2025-05-15
搜集汇总
数据集介绍

构建方式
RAIDEN-R1数据集的构建采用了多阶段协作策略,通过整合RAIDEN基准测试和通用角色扮演数据集,实现了高质量的角色感知对话数据采集。研究团队首先从RAIDEN基准中筛选出包含明确评估目标的对话样本,随后利用Qwen2.5-14B-Instruct模型对通用角色扮演数据进行问题过滤,保留具有挑战性的样本。数据生产流程创新性地设计了单术语验证(STV)和多术语动态解析(MTDP)两种工作流,前者通过严格的实体类型验证和基数约束确保关键词提取精度,后者采用语义扩展和Python代码验证实现动态语义等价判断。
使用方法
使用RAIDEN-R1数据集时,研究者可采用分组相对策略优化(GRPO)框架进行模型训练,该框架结合了格式奖励和准确度奖励双机制。格式奖励强制模型在特定标签内封装推理过程,准确度奖励则通过STV和MTDP两种匹配机制评估响应质量。对于冷启动训练,建议先利用数据集中的10,000个CoT样本进行监督微调,再实施强化学习阶段。评估时可采用RAIDEN基准测试集,重点关注脚本知识(SBK)和对话记忆(CM)等核心指标,通过Claude 3.5等先进模型进行LLM-as-a-judge式评估。
背景与挑战
背景概述
RAIDEN-R1数据集由腾讯平台与内容事业群及北京大学的研究团队于2025年提出,旨在解决角色扮演对话智能体(RPCAs)在角色一致性维护方面的核心挑战。该数据集基于RAIDEN基准测试构建,通过集成可验证角色感知奖励(VRAR)的强化学习框架,首次实现了角色认知能力的量化评估。其创新性体现在采用多LLM协作生成的思维链数据集,推动了角色感知推理模式的研究进展,对虚拟角色交互、个性化对话系统等领域产生显著影响。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决角色扮演对话中非量化性评估的难题,即如何定义角色一致性这类主观指标的客观标准;在构建过程中,需克服多术语动态解析的复杂性,包括语义等价关键词扩展的准确性验证、Python验证代码生成的可靠性保障,以及冷启动阶段思维链数据与角色风格适配的精细优化。此外,保持大规模生成数据与角色档案的语义一致性亦是关键挑战。
常用场景
经典使用场景
RAIDEN-R1数据集在角色扮演对话智能体(RPCAs)的研究中具有重要应用。该数据集通过多LLM协作构建的高质量角色感知思维链(CoT)数据,为模型提供了丰富的角色背景和对话历史,使其能够生成符合角色设定的连贯回应。经典使用场景包括评估模型在Script-Based Knowledge(SBK)和Conversation Memory(CM)等维度的表现,确保模型在对话中保持角色一致性。
解决学术问题
RAIDEN-R1数据集解决了角色扮演对话智能体中的角色漂移问题,即模型在对话中难以维持角色一致性的挑战。通过引入可验证的角色感知奖励(VRAR)和强化学习框架,该数据集为量化评估角色一致性提供了有效工具。其意义在于填补了RPCA训练中非量化评估的空白,并为角色感知推理模式的研究提供了新的视角。
实际应用
在实际应用中,RAIDEN-R1数据集可用于开发个性化的角色扮演对话系统,如虚拟偶像、游戏NPC或教育场景中的历史人物模拟。其生成的模型能够处理复杂的对话上下文,并在面对误导性查询时保持角色一致性,从而提升用户体验。此外,该数据集还可用于测试模型在长对话中的记忆能力和推理能力。
数据集最近研究
最新研究方向
近年来,角色扮演对话代理(RPCAs)的研究聚焦于提升角色一致性和上下文推理能力。RAIDEN-R1数据集通过引入可验证的角色感知奖励(VRAR)和基于群体相对策略优化(GRPO)的强化学习框架,显著提升了模型在脚本知识(SBK)和对话记忆(CM)等核心指标上的表现。前沿研究进一步探索了多阶段训练策略,利用大模型协作生成高质量的第一人称思维链(CoT)数据,以增强角色感知推理的连贯性。这一方向不仅解决了传统方法中角色漂移的问题,还为角色扮演对话系统的量化评估和优化提供了新的方法论。
相关研究论文
- 1RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward腾讯平台与内容群组, 北京大学软件与微电子学院 · 2025年
以上内容由遇见数据集搜集并总结生成



