ZenMoore/RoleBench

Name: ZenMoore/RoleBench
Creator: ZenMoore
Published: 2023-11-23 11:09:22
License: 暂无描述

Hugging Face2023-11-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ZenMoore/RoleBench

下载链接

链接失效反馈

官方服务：

资源简介：

RoleBench是一个用于评估和增强大型语言模型在角色扮演任务中能力的数据集。它包含多种角色的对话和指令数据，支持中文和英文。数据集的结构包括指令、角色描述、对话数据等部分，旨在通过角色扮演任务来测试和提升语言模型的表现。

RoleBench is a dataset designed to evaluate and enhance the capabilities of large language models (LLMs) in role-playing tasks. It contains dialogue and instruction data across various roles, supporting both Chinese and English. The dataset is structured into sections including instructions, role descriptions, dialogue data and other relevant components, aiming to test and improve the performance of LLMs through role-playing tasks.

提供机构：

ZenMoore

原始信息汇总

数据集概述：RoleBench

数据集名称

名称：RoleBench
别名：RoleLLM

数据集描述

论文标题：RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
论文链接：arXiv
GitHub仓库：RoleLLM-public

数据集内容

角色列表：包含多个虚构和历史人物角色，如Abraham Lincoln, Alvy Singer, Andrew Detmer等。
非精选示例：提供多个角色的示例图像，如Wukong Sun, Twilight Sparkle, Jack Sparrow等。

数据集统计

统计信息：数据集的详细统计信息通过图像展示，包括角色分布、数据量等。

数据集下载

下载命令： bash git lfs install git clone https://huggingface.co/datasets/ZenMoore/RoleBench
Python加载： python from datasets import load_dataset dataset = load_dataset("ZenMoore/RoleBench")

数据集结构

文件结构：
- instructions-eng 和 instructions-zh：包含英汉双语的角色指令。
- profiles-eng 和 profiles-zh：包含角色描述和对话数据。
- rolebench-eng/instruction-generalization, rolebench-eng/role-generalization, rolebench-zh：包含训练和测试数据及基准结果。

许可证

许可证：Apache 2.0 License

引用信息

引用格式： bibtex @article{wang2023rolellm, title = {RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models}, author = {Zekun Moore Wang and others}, year = {2023}, journal = {arXiv preprint arXiv: 2310.00746} }

搜集汇总

数据集介绍

构建方式

在角色扮演智能体研究领域，RoleBench数据集的构建采用了系统化的框架。其核心方法融合了Context-Instruct技术，旨在从长篇剧本中提取结构化知识并注入角色专属信息。构建过程首先广泛收集涵盖东西方文学、影视及历史人物的多样化角色脚本，随后通过自动化与人工协同的方式，将原始对话文本转化为包含通用指令与角色特定指令的标准化数据对。该流程确保了数据在语言风格、知识深度与角色一致性上的高质量对齐，为模型训练提供了丰富的语义素材。

特点

RoleBench的显著特点在于其精心设计的双重泛化评估体系。数据集不仅包含通用指令任务，更强调角色特定指令的深度适应，从而全面衡量语言模型的角色扮演能力。其角色库极具代表性，囊括了从莎士比亚戏剧人物到现代流行文化角色，以及中国古典文学形象如孙悟空等，覆盖中英双语语境。每个角色均配有详尽的背景描述与对话档案，构成了多维度、细粒度的评估基准，为研究角色一致性、知识注入与长文本理解提供了独特的数据基础。

使用方法

研究人员可通过Hugging Face平台便捷加载RoleBench数据集，其文件结构清晰地区分了中英文指令集、角色档案及评估子集。典型使用流程包括：利用训练数据微调开源模型以增强角色扮演能力；在测试集上评估模型的指令跟随与角色一致性表现；或通过对比RoleGPT等基线结果进行方法学改进。数据集支持从角色泛化与指令泛化两个维度开展实验，用户可灵活选取特定角色或指令类型，以深入探究模型在复杂交互情境中的行为特性。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，角色扮演能力成为衡量其交互性能的重要维度。RoleBench数据集由InteractiveNLP团队于2023年构建，旨在系统评估和提升语言模型在角色扮演任务中的表现。该数据集涵盖中英双语，包含从历史人物到虚构角色的多样化角色设定，通过结构化指令和对话数据，为模型提供了丰富的角色上下文与行为模式学习资源。其核心研究问题聚焦于如何量化并增强语言模型对特定角色身份、语言风格及知识背景的模仿能力，为个性化人机交互研究奠定了数据基础。

当前挑战

在角色扮演领域，模型需精准捕捉角色的语言特征、知识背景与行为逻辑，这要求数据集具备高度的语义多样性和角色一致性。RoleBench构建过程中面临多重挑战：首先，角色知识的长文本提取与注入需平衡信息完整性与数据噪声；其次，跨文化角色（如中西文学人物）的指令设计需克服语言与语境差异；此外，角色特定指令的生成需避免模式化表达，确保对话数据的自然性与创造性。这些挑战共同指向了角色扮演数据在规模、质量与泛化能力上的优化需求。

常用场景

经典使用场景

在角色扮演与交互式自然语言处理领域，RoleBench数据集为评估大型语言模型的角色扮演能力提供了标准化基准。其经典使用场景集中于通过结构化指令与角色特定知识，系统化地测试模型在模拟多样化人物（如历史人物、虚构角色）时的对话一致性与个性保持度。该数据集支持多轮对话生成任务，使研究者能够量化模型在遵循角色背景、语言风格及情感表达方面的性能，为角色扮演能力的比较与优化奠定基础。

实际应用

在实际应用中，RoleBench数据集为开发个性化对话系统、虚拟助手及娱乐交互平台提供了关键数据支持。例如，在游戏叙事生成或教育模拟场景中，该数据集能够训练模型依据特定角色（如孙悟空或莎士比亚）的历史背景与语言特征，生成符合角色设定的自然对话。这不仅增强了用户体验的真实感与沉浸感，还为跨文化角色扮演应用（如中英文双语角色）的落地提供了技术可行性。

衍生相关工作

基于RoleBench数据集，衍生了一系列经典研究工作，如RoleGPT、RoleLLaMA和RoleGLM等解决方案，这些工作针对闭源与开源模型分别优化了角色扮演能力。此外，该数据集启发了对上下文指令生成、多角色对话评估及跨语言角色适应性的进一步探索，相关成果已扩展至交互式自然语言处理领域的多篇学术论文中，为后续角色扮演模型的基准测试与创新方法提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集