RoleBench

Name: RoleBench
Creator: 中国科学院大学
Published: 2024-04-24 15:56:00
License: 暂无描述

arXiv2024-04-24 更新2024-06-21 收录

下载链接：

https://github.com/InteractiveNLP-Team/RoleLLM-public

下载链接

链接失效反馈

官方服务：

资源简介：

RoleBench是由中国科学院大学团队开发的首个系统性和细粒度的角色扮演基准数据集，包含168,093个样本，涵盖多种角色和语言风格。该数据集通过四个阶段构建：角色简介构建、基于上下文的指令生成、角色提示使用GPT（RoleGPT）和角色条件指令调整（RoCIT）。RoleBench旨在通过Context-Instruct和RoleGPT生成的高质量QA对，提取角色特定知识，增强开源模型的角色扮演能力，解决现有模型在角色扮演优化上的限制。该数据集的应用领域包括自然语言处理和人工智能，特别是在提升大型语言模型在复杂任务如角色扮演中的表现。

RoleBench is the first systematic and fine-grained role-play benchmark dataset developed by the team from the University of Chinese Academy of Sciences, containing 168,093 samples covering diverse roles and linguistic styles. This dataset is constructed in four stages: role profile construction, context-based instruction generation, role prompt utilization via GPT (dubbed RoleGPT), and role-conditioned instruction tuning (RoCIT). RoleBench aims to extract role-specific knowledge from high-quality QA pairs generated by Context-Instruct and RoleGPT, so as to enhance the role-playing capabilities of open-source models and address the limitations of existing models in role-play optimization. Its application fields include natural language processing and artificial intelligence, particularly for improving the performance of large language models in complex tasks such as role-playing.

提供机构：

中国科学院大学

创建时间：

2023-10-02

搜集汇总

数据集介绍

构建方式

在角色扮演领域，RoleBench的构建遵循了系统化的多阶段流程。首先，研究团队从公开剧本中精心筛选了100个具有鲜明个性的角色，涵盖95个英文角色和5个中文角色，并利用GPT-4生成角色描述与口头禅，构建了详尽的角色档案。随后，通过上下文指令生成技术，将角色档案分割为片段，并利用大型语言模型生成包含问题、置信度与答案的三元组，以此提取角色特定知识。同时，采用基于对话工程的角色提示方法，通过系统指令与检索增强机制，引导模型模仿角色的言语风格，生成个性化的对话回应。最终，整合上述方法产生的数据，经过严格的去重与质量过滤，形成了包含168,093个样本的大规模、细粒度角色扮演基准数据集。

使用方法

RoleBench数据集主要用于评测与增强大型语言模型的角色扮演能力。在评测层面，研究者可借助该数据集，使用Rouge-L等自动指标或基于GPT的评估器，从言语风格模仿、回答准确性及角色特定知识掌握三个维度，系统评估不同模型在已知角色与未知角色上的表现。在模型增强方面，该数据集支持角色条件指令微调。开发者可将RoleBench中的通用指令与角色特定指令数据混合，对开源基础模型进行监督微调，从而将角色知识内化至模型参数中，显著提升其角色扮演的逼真度与知识丰富性。微调后的模型仅需通过简单的系统指令即可切换角色，实现了高效的角色定制与应用部署。

背景与挑战

背景概述

随着大语言模型在复杂任务处理能力上的突破，角色扮演作为增强人机交互沉浸感的关键应用方向，逐渐成为自然语言处理领域的前沿研究热点。在此背景下，研究团队于2024年4月正式发布了RoleBench数据集，该数据集由来自北京航空航天大学、中国科学院大学、香港科技大学等机构的学者联合构建，旨在系统性地评测与提升大语言模型的细粒度角色扮演能力。RoleBench作为首个面向角色扮演的系统性指令微调基准，涵盖了100个精心筛选的虚构角色，生成了超过16.8万条高质量样本，不仅推动了角色扮演任务的标准化评估，也为开源模型的角色定制化优化提供了关键数据支撑，对促进对话系统向更具个性化和情境感知的方向发展产生了深远影响。

当前挑战

RoleBench数据集致力于解决大语言模型在细粒度角色扮演任务中面临的若干核心挑战。在领域问题层面，现有模型普遍存在角色刻画粒度粗糙的局限，难以精准模仿特定虚构角色（如夏洛克·福尔摩斯）的独特语言风格与背景知识，导致交互体验缺乏细腻感与一致性。在构建过程中，研究团队需克服高质量角色扮演数据稀缺的难题，通过设计Context-Instruct框架从长文本剧本中提取角色专属知识，并利用RoleGPT进行对话风格模仿，以生成兼具语言风格一致性与知识准确性的样本。此外，数据构建还需平衡生成效率与成本，在控制API调用开销的同时确保数据的多样性与可靠性，这些挑战共同塑造了数据集的最终形态与价值。

常用场景

经典使用场景

在角色扮演大语言模型的研究领域，RoleBench作为首个系统化、细粒度的角色级别基准数据集，其经典使用场景主要集中于评估和提升模型对特定角色的模仿能力。通过整合一百个精心筛选的角色档案，该数据集能够全面测试模型在词汇一致性和对话忠实性两个维度的表现，为研究者提供了一个标准化的评估平台。在具体应用中，RoleBench被广泛用于对比不同模型在角色扮演任务上的性能差异，尤其是在模仿角色说话风格和融入角色特定知识方面的能力。

解决学术问题

RoleBench有效解决了角色扮演研究中长期存在的若干学术问题。首先，它填补了细粒度角色级别基准数据的空白，使得对复杂角色（如夏洛克·福尔摩斯）的模仿能力得以系统评估。其次，通过Context-Instruct和RoleGPT两种数据增强机制，该数据集缓解了高质量、多样化开源数据的短缺问题，为指令微调提供了丰富资源。此外，RoleBench支持的角色条件指令微调方法，显著提升了开源模型在角色扮演任务上的性能，缩小了与闭源模型之间的差距，推动了该领域的可复现性和可访问性研究。

实际应用

在实际应用层面，RoleBench支撑的角色扮演模型已展现出广泛的应用潜力。基于该数据集微调的RoleLLaMA和RoleGLM模型，能够生成高度符合角色特征的对话内容，适用于个性化虚拟助手、沉浸式游戏角色、交互式故事叙述等场景。例如，在教育娱乐领域，模型可以扮演历史人物或文学角色，提供生动的互动学习体验；在客户服务中，则可定制具有特定职业背景或性格特征的对话代理，提升服务的亲和力与专业性。这些应用不仅增强了人机交互的自然度，也为个性化AI服务的发展提供了技术基础。

数据集最近研究