Crab-manually-annotated-role-playing-evaluation-dataset

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/HeAAAAA/Crab-manually-annotated-role-playing-evaluation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Crab数据集是用于微调角色扮演大型语言模型的集合，包含了角色档案和对话信息。该数据集分为四个部分：角色扮演训练集、角色扮演评估基准、人工标注的角色扮演评估数据集和Crab人类偏好数据集，分别用于不同的训练和评估目的。

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

在角色扮演任务评估领域，该数据集通过人工标注方式精心构建，包含1000个英文对话样本。每个样本由唯一标识符uid索引，原始信息origin_inf模块结构化存储了角色属性（包括姓名、年龄、性格等元数据）、场景描述和对话轮次，人工标注human_ann部分则收录了十维度评分体系，严格遵循Crab论文的评估标准。数据以JSON嵌套结构组织，完整保留了角色扮演互动的多层级语义特征。

特点

作为角色扮演评估领域的专业数据集，其核心价值体现在多维度的结构化标注体系。特征空间涵盖角色画像的9项属性、场景上下文、关系描述及10轮完整对话记录，配合10位标注者的细粒度评分，为模型评估提供立体化参照。数据分布上，训练集包含433万字节的千条样本，每条数据通过type字段区分任务类型，tags字段实现多主题分类，这种元数据架构显著提升了数据检索效率。

使用方法

该数据集主要服务于角色扮演语言模型的评估器训练，通过HuggingFace标准接口即可快速加载。典型使用流程包括：调用load_dataset方法加载数据集后，可遍历train分割中的样本，通过origin_inf解析角色配置与对话序列，结合human_ann的评分数据进行监督学习。开发者亦可通过file_path字段溯源原始数据，利用run_round字段控制对话轮次深度，实现灵活的评估场景构建。配套发布的RoleRM评估模型可直接复用该数据格式进行迁移学习。

背景与挑战

背景概述

Crab-manually-annotated-role-playing-evaluation-dataset是由Kai He等人于2025年推出的专注于角色扮演任务评估的数据集。该数据集旨在为角色扮演大语言模型（LLM）的评估提供高质量的标注数据，支持自动化评估器的训练。数据集包含丰富的角色配置信息和对话记录，涉及多种角色属性如姓名、年龄、性别、性格等，以及详细的人类评分标注。该数据集的推出填补了角色扮演任务评估领域的空白，为相关研究提供了重要的基准工具。

当前挑战

该数据集面临的核心挑战包括角色扮演任务的多样性与复杂性。角色扮演任务涉及多轮对话、角色属性配置、场景设定等多维度因素，如何准确评估模型的表现成为难题。在构建过程中，数据标注的准确性和一致性是关键挑战，需要确保不同标注者对角色扮演质量的评判标准一致。此外，数据集还需平衡不同角色类型和场景的覆盖范围，以避免评估偏差。

常用场景

经典使用场景

在角色扮演对话系统的研究中，Crab数据集为模型训练与评估提供了丰富的人工标注资源。该数据集通过精心设计的角色属性和对话场景，支持研究者构建具有个性化特征的角色扮演语言模型。其多轮对话结构和人工评分机制，使得模型能够学习到符合人类预期的角色行为模式，成为评估对话系统角色一致性和交互自然度的黄金标准。

实际应用

在虚拟偶像互动、游戏NPC对话系统等实际场景中，该数据集指导开发的模型展现出显著优势。教育领域的虚拟教师、心理咨询场景的AI陪伴者等应用，均可基于数据集提供的角色知识库和对话模板，快速构建符合特定人设的交互系统，同时通过内置的评估机制持续优化对话质量。

衍生相关工作

以该数据集为基础衍生的RoleRM评估模型，开创了自动化角色扮演评估的新范式。相关研究进一步拓展至跨文化角色适应性分析、多模态角色表现生成等领域，其中基于强化学习的角色优化框架Crab-RL，显著提升了对话系统在长期交互中的角色稳定性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集