PersonaEval

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/lingfengzhou/PersonaEval

下载链接

链接失效反馈

官方服务：

资源简介：

PersonaEval是一个用于评估大型语言模型在对话中识别角色身份能力的基准数据集。它包括文学对话、剧本对话和专业知识视频解释三个轨道，以CSV格式提供，每行包含一个对话上下文和多个候选角色的描述。

PersonaEval is a benchmark dataset for evaluating the ability of large language models to recognize character identities in dialogues. It comprises three tracks: literary dialogues, scripted dialogues, and expert knowledge video explanations. The dataset is provided in CSV format, where each row contains a dialogue context and descriptions of multiple candidate characters.

创建时间：

2025-08-04

原始信息汇总

PersonaEval: 对话中角色识别的基准测试

数据集概述

许可证: CC-BY-4.0
语言: 英语 (en)、中文 (zh)
标签: 角色扮演、LLM-as-a-judge、推理、对话理解、基准测试
数据集名称: PersonaEval
注释创建者: 专家生成、机器生成
来源数据集: 自定义
规模: 10k < n < 100k

数据集配置

Literary: 数据文件为 "Literary.csv"
Drama: 数据文件为 "Drama.csv"
Expertise: 数据文件为 "Expertise.csv"

数据集描述

PersonaEval 是首个用于测试大型语言模型 (LLMs) 能否从自然对话中可靠识别角色身份的基准测试。数据集包含从人类创作材料中提取的对话实例，分为三个不同的轨道以全面评估模型的角色识别能力。

数据集轨道

PersonaEval-Literary: 包含来自 771 部英文小说的 26,208 个对话，测试虚构叙事中的角色推断。
PersonaEval-Drama: 包含来自中文剧本的 1,658 个对话片段，测试模型在脚本化互动中理解角色对齐的能力。
PersonaEval-Expertise: 来自 Wired "5 Levels" 视频系列的 699 个结构化解释，测试模型是否能根据语言和概念线索推断说话者的目标受众。

支持的任务

角色识别: 多项选择分类任务。给定对话上下文和一组候选角色，模型必须预测第二个说话者的正确身份。

数据集结构

数据集以 CSV 格式提供，每行代表一个评估实例。

数据字段

prompt: 包含完整对话上下文的字符串。
gt: 表示正确答案的字符串，即作为 Character2 说话的正确角色名称。
option1 到 option5: 候选角色名称。
option1_profile 到 option5_profile: 候选角色的详细描述。

数据集创建

来源数据

PersonaEval-Literary: 来自 COSER，一个经过验证的基于小说的数据集。
PersonaEval-Drama: 改编自部分开源的 CharacterEval 数据集。
PersonaEval-Expertise: 来自 Wired "5 Levels" 视频系列。

数据处理

对抗性干扰项构建: 使用三个独立的嵌入模型检索与真实角色余弦相似度最高的前三个角色。
困难案例筛选: 两阶段过滤过程，保留仅具有挑战性的实例。

预期用途与限制

预期用途

作为基准测试直接评估 LLMs 是否能从自然对话中识别人类角色。
促进开发更强大且与人类对齐的 LLM 评估器。
鼓励研究 LLMs 的推理能力。

限制与偏差

筛选偏差: 使用单一模型 (Qwen-max) 的置信度分数可能引入系统性偏差。
上下文长度: 任务基于两轮对话，而现实世界的对话具有更丰富的多轮上下文。

引用信息

bibtex @inproceedings{zhou2025personaeval, title={PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?}, author={Zhou, Lingfeng and Zhang, Jialing and Gao, Jin and Jiang, Mohan and Wang, Dequan}, booktitle={Conference on Language Modeling (COLM)}, year={2025} }

搜集汇总

数据集介绍

构建方式

PersonaEval数据集的构建过程体现了严谨的学术方法论，其核心在于通过多源异构数据构建具有挑战性的角色识别基准。研究团队从文学小说、戏剧剧本和专业科普视频三个领域采集原始语料，采用对抗性干扰项构建技术，通过三种独立嵌入模型筛选语义相近的角色作为干扰选项。为确保数据质量，采用两阶段过滤机制：先剔除低信息量对话片段，再基于Qwen-max模型的置信度筛选保留具有挑战性的样本，最终形成包含英文小说、中文剧本和专家对话三个独立子集的评估体系。

特点

该数据集最显著的特征在于其多维度评估框架的设计。PersonaEval通过Literary、Drama和Expertise三个子集，分别考察模型在虚构叙事、剧本对话和专业知识场景下的角色识别能力。数据集严格采用人类创作内容以避免生成式模型的污染，每个样本包含完整的对话上下文和四个具有详细角色档案的候选选项。特别值得注意的是其对抗性干扰项的精心设计，使得当前最先进的LLM模型准确率仅为65%，与人类90.8%的表现存在显著差距，充分展现了数据集的判别力。

使用方法

使用该数据集时，研究者可采用标准的多分类评估范式。输入包含对话上下文和候选角色信息，模型需预测第二说话者的正确身份。评估指标建议采用准确率，同时可结合错误分析探究模型在特定角色类型上的偏差。数据集提供CSV格式的标准化结构，包含prompt对话提示、gt真实答案及多个option候选角色及其详细档案。为保障评估效度，建议在模型开发过程中保持三个子集的独立测试，以全面考察模型在不同语境下的角色理解能力。

背景与挑战

背景概述

PersonaEval数据集由Lingfeng Zhou等研究人员于2025年提出，旨在评估大型语言模型（LLMs）在自然对话中识别角色身份的能力。作为首个专注于角色识别的基准测试，该数据集通过三个独立赛道（文学、戏剧和专业知识）全面考察模型对人类对话的理解水平。数据来源于771部英文小说、中文剧本以及Wired科普视频，所有内容均为人类创作以避免合成数据的干扰。这一创新性工作揭示了当前LLMs在角色识别任务上仅能达到65%准确率，显著低于人类90.8%的表现，为改进基于LLM的角色扮演评估系统提供了重要基准。

当前挑战

该数据集主要解决角色识别这一核心挑战，要求模型在给定对话片段和候选角色时，准确判断发言者身份。构建过程中面临双重困难：在任务设计层面，需要创建具有语义接近性的对抗性干扰项，通过三重嵌入模型筛选高相似度角色以提升分类难度；在数据处理层面，采用两阶段过滤机制剔除低信息量对话和模型易判样本，仅保留具有挑战性的实例。这些精心设计的障碍使得现有最优模型表现仍与人类存在显著差距，突显了语言模型在意图推理和视角采撷等深层认知能力上的局限性。

常用场景

经典使用场景

在自然语言处理领域，PersonaEval数据集为角色识别任务提供了标准化的评估框架。该数据集通过精心设计的对话片段和候选角色集合，要求模型在给定上下文中准确识别发言者的身份。这种设置模拟了真实对话中角色推理的核心挑战，为研究者提供了衡量模型角色理解能力的精确标尺。尤其在文学角色分析和剧本人物关系推断等场景中，该数据集展现出独特的价值。

衍生相关工作

基于PersonaEval的评估范式，学界已衍生出多项创新研究。CharacterBERT通过融合角色特征编码提升了识别准确率；DialogueRNN则利用时序建模改进多轮对话中的角色追踪。这些工作共同推动了角色感知对话系统的发展，相关成果被广泛应用于个性化推荐、教育陪练等细分领域，形成了完整的产学研创新链条。

数据集最近研究