CharacterEval

Name: CharacterEval
Creator: 高瓴人工智能学院，中国人民大学
Published: 2024-01-10 02:54:05
License: 暂无描述

arXiv2024-01-10 更新2024-06-21 收录

下载链接：

https://github.com/morecry/CharacterEval

下载链接

链接失效反馈

官方服务：

资源简介：

CharacterEval是一个专为评估中文角色扮演对话代理（RPCA）而设计的大型数据集，由中国人民大学和北京邮电大学的人工智能学院共同创建。该数据集包含1,785个多轮角色扮演对话，总计11,376个示例，涵盖77个来自中国小说和剧本的角色。数据集的构建过程包括使用GPT-4提取对话，随后进行严格的人工质量控制，并通过百度百科补充深入的角色资料。CharacterEval不仅用于评估RPCA的对话能力，还涉及角色一致性、角色扮演吸引力和个性回测等多个维度，旨在全面评估RPCA的性能，解决现有评估方法的不足。

CharacterEval is a large-scale dataset specifically designed for evaluating Chinese Role-Playing Dialogue Agents (RPCA), co-created by the School of Artificial Intelligence of Renmin University of China and Beijing University of Posts and Telecommunications. This dataset contains 1,785 multi-turn role-playing dialogues, totaling 11,376 examples, covering 77 characters sourced from Chinese novels and screenplays. The dataset's construction process includes extracting dialogues using GPT-4, followed by strict manual quality control, and supplementing in-depth character information via Baidu Encyclopedia. CharacterEval is not only used to evaluate the dialogue capabilities of RPCA, but also covers multiple dimensions such as character consistency, role-playing attractiveness, and personality backtesting, aiming to comprehensively evaluate the performance of RPCA and address the shortcomings of existing evaluation methods.

提供机构：

高瓴人工智能学院，中国人民大学

创建时间：

2024-01-03

搜集汇总

数据集介绍

构建方式

CharacterEval数据集的构建过程严谨且系统，首先利用GPT-4从多种中文小说和剧本中提取多轮角色扮演对话，随后通过人工审核确保对话质量，并从百度百科获取详细的角色背景信息，最终形成包含1,785个多轮对话、11,376个示例和77个角色的高质量数据集。

特点

CharacterEval数据集的显著特点在于其多维度的评估体系，涵盖了对话能力、角色一致性、角色扮演吸引力和性格回测四个维度，共包含十三项具体指标。此外，该数据集特别开发了基于人类注释的角色扮演奖励模型CharacterRM，以提高评估的主观指标与人类判断的相关性。

使用方法

CharacterEval数据集适用于评估和提升角色扮演对话代理（RPCA）的能力。研究者和开发者可以利用该数据集进行模型训练和性能评估，通过对比不同模型在十三项指标上的表现，优化RPCA的对话生成和角色一致性。此外，CharacterRM模型可用于快速评估生成对话的质量，辅助模型迭代和改进。

背景与挑战

背景概述

随着大型语言模型（LLMs）的兴起，生成式代理技术得到了革命性的发展，其中角色扮演对话代理（RPCAs）因其能够情感化地吸引用户而备受关注。然而，这一领域的进展受限于缺乏一个全面的评估基准。为此，中国人民大学的Quan Tu、Shilong Fan、Zihang Tian和Rui Yan等研究人员于2024年推出了CharacterEval，这是一个针对RPCA评估的中文基准，并配备了一个高质量的数据集。该数据集包含1,785个多轮角色扮演对话，涵盖11,376个示例，并涉及77个源自中国小说和剧本的角色。CharacterEval通过多维度的评估方法，包括十三个特定指标，旨在全面评估RPCA的能力，推动该领域的发展。

当前挑战

CharacterEval数据集在构建过程中面临多项挑战。首先，现有的数据集质量参差不齐，主要由LLMs生成或因提取方法导致噪音较大，使得评估结果不可靠。其次，角色扮演对话的复杂性要求不仅模仿角色的行为和言语，还需保持角色的知识背景和多轮对话能力。此外，数据集的构建需要从多样化的中国小说和剧本中提取高质量的对话，并通过GPT-4进行初步提取和人工质量控制，以确保数据的真实性和准确性。最后，评估RPCA的能力需要一个多维度的框架，涵盖对话能力、角色一致性、角色扮演吸引力和性格回测等多个方面，这对评估方法的设计提出了高要求。

常用场景

经典使用场景

CharacterEval数据集的经典使用场景在于评估和提升角色扮演对话代理（RPCA）的性能。通过包含1,785个多轮角色扮演对话和11,376个示例，该数据集为研究人员提供了一个全面的基准，用于测试和改进RPCA在模拟特定角色对话中的表现。其丰富的角色背景和详细的对话内容，使得该数据集成为评估RPCA在角色一致性、对话吸引力和情感连贯性等方面的理想工具。

衍生相关工作

基于CharacterEval数据集，研究人员已经开发了多种相关的经典工作。例如，CharacterRM模型通过结合人类注释，显著提高了对RPCA主观指标评估的准确性。此外，还有研究利用该数据集进行多轮对话生成模型的训练和评估，探索了在长对话场景中保持角色一致性和对话吸引力的方法。这些工作不仅丰富了角色扮演对话系统的研究领域，也为实际应用提供了技术支持。

数据集最近研究