RAIDEN-R1

Name: RAIDEN-R1
Creator: 腾讯平台与内容群组, 北京大学软件与微电子学院
Published: 2025-05-15 20:22:10
License: 暂无描述

arXiv2025-05-15 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.10218v1

下载链接

链接失效反馈

官方服务：

资源简介：

RAIDEN-R1 是一个高质量的角色感知思维链数据集，专为角色扮演对话代理（RPCA）的监督微调（SFT）而构建。该数据集通过多LLM协作生成，旨在解决RPCA训练中角色漂移问题，提高角色一致性。数据集包含了丰富的角色信息，通过多阶段训练策略，使模型能够在对话中保持角色的连贯性和一致性。

RAIDEN-R1 is a high-quality role-aware chain-of-thought dataset designed for supervised fine-tuning (SFT) of role-playing conversation agents (RPCA). Generated via multi-LLM collaboration, this dataset aims to address the role drift issue in RPCA training and enhance role consistency. It features rich role-related information and adopts a multi-stage training strategy, enabling models to maintain the coherence and consistency of their assigned roles throughout conversations.

提供机构：

腾讯平台与内容群组, 北京大学软件与微电子学院

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

RAIDEN-R1数据集的构建采用了多阶段协作策略，通过整合RAIDEN基准测试和通用角色扮演数据集，实现了高质量的角色感知对话数据采集。研究团队首先从RAIDEN基准中筛选出包含明确评估目标的对话样本，随后利用Qwen2.5-14B-Instruct模型对通用角色扮演数据进行问题过滤，保留具有挑战性的样本。数据生产流程创新性地设计了单术语验证（STV）和多术语动态解析（MTDP）两种工作流，前者通过严格的实体类型验证和基数约束确保关键词提取精度，后者采用语义扩展和Python代码验证实现动态语义等价判断。

使用方法

使用RAIDEN-R1数据集时，研究者可采用分组相对策略优化（GRPO）框架进行模型训练，该框架结合了格式奖励和准确度奖励双机制。格式奖励强制模型在特定标签内封装推理过程，准确度奖励则通过STV和MTDP两种匹配机制评估响应质量。对于冷启动训练，建议先利用数据集中的10,000个CoT样本进行监督微调，再实施强化学习阶段。评估时可采用RAIDEN基准测试集，重点关注脚本知识（SBK）和对话记忆（CM）等核心指标，通过Claude 3.5等先进模型进行LLM-as-a-judge式评估。

背景与挑战

背景概述

RAIDEN-R1数据集由腾讯平台与内容事业群及北京大学的研究团队于2025年提出，旨在解决角色扮演对话智能体（RPCAs）在角色一致性维护方面的核心挑战。该数据集基于RAIDEN基准测试构建，通过集成可验证角色感知奖励（VRAR）的强化学习框架，首次实现了角色认知能力的量化评估。其创新性体现在采用多LLM协作生成的思维链数据集，推动了角色感知推理模式的研究进展，对虚拟角色交互、个性化对话系统等领域产生显著影响。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决角色扮演对话中非量化性评估的难题，即如何定义角色一致性这类主观指标的客观标准；在构建过程中，需克服多术语动态解析的复杂性，包括语义等价关键词扩展的准确性验证、Python验证代码生成的可靠性保障，以及冷启动阶段思维链数据与角色风格适配的精细优化。此外，保持大规模生成数据与角色档案的语义一致性亦是关键挑战。

常用场景

经典使用场景

RAIDEN-R1数据集在角色扮演对话智能体（RPCAs）的研究中具有重要应用。该数据集通过多LLM协作构建的高质量角色感知思维链（CoT）数据，为模型提供了丰富的角色背景和对话历史，使其能够生成符合角色设定的连贯回应。经典使用场景包括评估模型在Script-Based Knowledge（SBK）和Conversation Memory（CM）等维度的表现，确保模型在对话中保持角色一致性。

解决学术问题

RAIDEN-R1数据集解决了角色扮演对话智能体中的角色漂移问题，即模型在对话中难以维持角色一致性的挑战。通过引入可验证的角色感知奖励（VRAR）和强化学习框架，该数据集为量化评估角色一致性提供了有效工具。其意义在于填补了RPCA训练中非量化评估的空白，并为角色感知推理模式的研究提供了新的视角。

实际应用

在实际应用中，RAIDEN-R1数据集可用于开发个性化的角色扮演对话系统，如虚拟偶像、游戏NPC或教育场景中的历史人物模拟。其生成的模型能够处理复杂的对话上下文，并在面对误导性查询时保持角色一致性，从而提升用户体验。此外，该数据集还可用于测试模型在长对话中的记忆能力和推理能力。

数据集最近研究