Crab-manually-annotated-role-playing-evaluation-dataset
收藏Hugging Face2025-04-19 更新2025-04-20 收录
下载链接:
https://huggingface.co/datasets/HeAAAAA/Crab-manually-annotated-role-playing-evaluation-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Crab数据集是用于微调角色扮演大型语言模型的集合,包含了角色档案和对话信息。该数据集分为四个部分:角色扮演训练集、角色扮演评估基准、人工标注的角色扮演评估数据集和Crab人类偏好数据集,分别用于不同的训练和评估目的。
创建时间:
2025-04-18
搜集汇总
数据集介绍

构建方式
在角色扮演任务评估领域,该数据集通过人工标注方式精心构建,包含1000个英文对话样本。每个样本由唯一标识符uid索引,原始信息origin_inf模块结构化存储了角色属性(包括姓名、年龄、性格等元数据)、场景描述和对话轮次,人工标注human_ann部分则收录了十维度评分体系,严格遵循Crab论文的评估标准。数据以JSON嵌套结构组织,完整保留了角色扮演互动的多层级语义特征。
特点
作为角色扮演评估领域的专业数据集,其核心价值体现在多维度的结构化标注体系。特征空间涵盖角色画像的9项属性、场景上下文、关系描述及10轮完整对话记录,配合10位标注者的细粒度评分,为模型评估提供立体化参照。数据分布上,训练集包含433万字节的千条样本,每条数据通过type字段区分任务类型,tags字段实现多主题分类,这种元数据架构显著提升了数据检索效率。
使用方法
该数据集主要服务于角色扮演语言模型的评估器训练,通过HuggingFace标准接口即可快速加载。典型使用流程包括:调用load_dataset方法加载数据集后,可遍历train分割中的样本,通过origin_inf解析角色配置与对话序列,结合human_ann的评分数据进行监督学习。开发者亦可通过file_path字段溯源原始数据,利用run_round字段控制对话轮次深度,实现灵活的评估场景构建。配套发布的RoleRM评估模型可直接复用该数据格式进行迁移学习。
背景与挑战
背景概述
Crab-manually-annotated-role-playing-evaluation-dataset是由Kai He等人于2025年推出的专注于角色扮演任务评估的数据集。该数据集旨在为角色扮演大语言模型(LLM)的评估提供高质量的标注数据,支持自动化评估器的训练。数据集包含丰富的角色配置信息和对话记录,涉及多种角色属性如姓名、年龄、性别、性格等,以及详细的人类评分标注。该数据集的推出填补了角色扮演任务评估领域的空白,为相关研究提供了重要的基准工具。
当前挑战
该数据集面临的核心挑战包括角色扮演任务的多样性与复杂性。角色扮演任务涉及多轮对话、角色属性配置、场景设定等多维度因素,如何准确评估模型的表现成为难题。在构建过程中,数据标注的准确性和一致性是关键挑战,需要确保不同标注者对角色扮演质量的评判标准一致。此外,数据集还需平衡不同角色类型和场景的覆盖范围,以避免评估偏差。
常用场景
经典使用场景
在角色扮演对话系统的研究中,Crab数据集为模型训练与评估提供了丰富的人工标注资源。该数据集通过精心设计的角色属性和对话场景,支持研究者构建具有个性化特征的角色扮演语言模型。其多轮对话结构和人工评分机制,使得模型能够学习到符合人类预期的角色行为模式,成为评估对话系统角色一致性和交互自然度的黄金标准。
实际应用
在虚拟偶像互动、游戏NPC对话系统等实际场景中,该数据集指导开发的模型展现出显著优势。教育领域的虚拟教师、心理咨询场景的AI陪伴者等应用,均可基于数据集提供的角色知识库和对话模板,快速构建符合特定人设的交互系统,同时通过内置的评估机制持续优化对话质量。
衍生相关工作
以该数据集为基础衍生的RoleRM评估模型,开创了自动化角色扮演评估的新范式。相关研究进一步拓展至跨文化角色适应性分析、多模态角色表现生成等领域,其中基于强化学习的角色优化框架Crab-RL,显著提升了对话系统在长期交互中的角色稳定性。
以上内容由遇见数据集搜集并总结生成



