RoleMRC
收藏arXiv2025-02-17 更新2025-02-19 收录
下载链接:
https://github.com/LuJunru/RoleMRC
下载链接
链接失效反馈官方服务:
资源简介:
RoleMRC是由腾讯优图实验室、英国伦敦国王学院、华威大学和Alan Turing Institute共同创建的一个细粒度角色扮演和指令遵循复合数据集。该数据集包括理想角色与人类之间的多轮对话、基于文章回答性和角色能力的角色扮演机器阅读理解、以及嵌套、多轮和优先级指令的更复杂场景。RoleMRC拥有10.2k的角色配置元池,37.9k的精心合成的角色扮演指令,以及1.4k的测试样本,是迄今为止最全面的角色扮演数据集。
RoleMRC is a fine-grained role-playing and instruction-following composite dataset jointly created by Tencent YouTu Lab, King's College London, the University of Warwick, and the Alan Turing Institute. This dataset includes multi-turn dialogues between ideal role personas and human participants, role-playing machine reading comprehension tasks that require answering questions based on provided articles and adhering to the role's defined capabilities, as well as more complex scenarios featuring nested, multi-turn and prioritized instructions. RoleMRC features a 10.2k-sized role configuration meta-pool, 37.9k meticulously synthesized role-playing instructions, and 1.4k test samples, making it the most comprehensive role-playing dataset available to date.
提供机构:
腾讯优图实验室, 英国伦敦国王学院, 华威大学, Alan Turing Institute
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
RoleMRC数据集的构建采用了分阶段对话合成的方法。首先,通过PersonaHub开源数据集随机采样并标准化了10.2k个角色描述,形成了角色元池。接着,利用GPT-4o模型,根据角色描述和MRC数据生成了多样化的对话数据。对话数据分为三类:自由聊天、场景对话和规则聊天。自由聊天是角色和用户之间的多轮对话,场景对话是角色根据给定段落进行思考和回答,规则聊天是角色的回答需要遵循特定的要求,如特定格式、限制或拒绝指南。最后,通过整合和混搭,形成了包含10.2k个角色描述、37.9k个角色扮演指令和1.4k个测试样本的RoleMRC数据集。
特点
RoleMRC数据集的特点在于其精细化的角色扮演和指令遵循场景。数据集涵盖了多轮对话、场景对话和规则聊天等多种类型,能够评估和提升大型语言模型(LLMs)在角色扮演和指令遵循方面的能力。此外,RoleMRC还提供了一个评估流程,包括七个启发式指标、一个五维度的LLM-as-a-judge框架和神经探测。数据集的构建过程中,通过引入嵌套、多轮和优先级指令等复杂场景,使得LLMs能够在更加接近真实应用的环境中学习和评估其角色扮演和指令遵循能力。
使用方法
RoleMRC数据集的使用方法主要包括两个部分:监督微调和人类偏好优化。监督微调是指使用数据集中的单标签数据进行模型训练,以提高模型在角色扮演和指令遵循方面的性能。人类偏好优化是指使用数据集中的成对标签数据进行模型训练,使模型能够更好地符合人类的偏好。此外,RoleMRC还提供了一种LLM-as-a-judge的评估方法,通过让先进的LLMs对模型生成的输出进行评估,来检验模型在角色扮演和指令遵循方面的能力。
背景与挑战
背景概述
随着大型语言模型(LLMs)在角色扮演和指令遵循方面的应用日益广泛,研究者们迫切需要能够全面评估和提升这些模型在复杂场景下的表现能力。RoleMRC数据集正是为了填补这一空白而创建的。由腾讯优图实验室、伦敦国王学院、华威大学和艾伦图灵研究所的研究人员合作开发,RoleMRC于2025年2月首次提出。该数据集专注于LLMs在角色扮演和指令遵循方面的细粒度评估,涵盖了多轮对话、角色扮演机器阅读理解和复杂的多层指令遵循场景。RoleMRC包含了1.02万个角色配置元池、3.79万个精心合成的角色扮演指令和1.4千个测试样本,为评估LLMs的角色扮演和指令遵循能力提供了一个全面而精细的基准。
当前挑战
RoleMRC数据集在构建过程中面临的主要挑战包括:1) 如何设计能够准确反映角色特性和知识边界的角色配置;2) 如何生成多样化的、符合角色特性的对话数据;3) 如何构建一个能够全面评估LLMs角色扮演和指令遵循能力的评估框架。此外,RoleMRC数据集在应用过程中也面临一些挑战,例如:1) 如何确保角色扮演的一致性和准确性;2) 如何避免模型在特定场景下的过拟合;3) 如何处理模型在多轮指令遵循中的“对齐税”问题,即在遵循指令的同时,可能导致的模型在多轮指令遵循能力上的下降。
常用场景
经典使用场景
RoleMRC数据集主要应用于大型语言模型(LLMs)的角色扮演和指令遵循能力的评估与提升。该数据集包含了多轮对话、角色扮演的机器阅读理解以及更复杂的嵌套、多轮和优先级指令场景。通过RoleMRC,研究人员可以训练LLMs在多种角色中灵活切换,并在遵循指令的同时保持角色的身份和预设的能力限制。
实际应用
RoleMRC数据集在实际应用中可以用于训练和评估LLMs的角色扮演和指令遵循能力,使其能够更好地服务于各种场景,如虚拟助手、个性化代理、休闲伙伴、内容创作者和社会实验模拟器等。通过RoleMRC训练的模型可以更好地理解用户的需求,并提供更加准确和个性化的服务。
衍生相关工作
RoleMRC数据集的提出推动了LLMs在角色扮演和指令遵循领域的进一步研究。基于RoleMRC,研究人员可以开发出更多针对特定场景的角色扮演模型,并探索LLMs在更复杂指令场景下的行为模式和优化策略。
以上内容由遇见数据集搜集并总结生成



