CharacterEval
收藏arXiv2024-01-10 更新2024-06-21 收录
下载链接:
https://github.com/morecry/CharacterEval
下载链接
链接失效反馈官方服务:
资源简介:
CharacterEval是一个专为评估中文角色扮演对话代理(RPCA)而设计的大型数据集,由中国人民大学和北京邮电大学的人工智能学院共同创建。该数据集包含1,785个多轮角色扮演对话,总计11,376个示例,涵盖77个来自中国小说和剧本的角色。数据集的构建过程包括使用GPT-4提取对话,随后进行严格的人工质量控制,并通过百度百科补充深入的角色资料。CharacterEval不仅用于评估RPCA的对话能力,还涉及角色一致性、角色扮演吸引力和个性回测等多个维度,旨在全面评估RPCA的性能,解决现有评估方法的不足。
CharacterEval is a large-scale dataset specifically designed for evaluating Chinese Role-Playing Dialogue Agents (RPCA), co-created by the School of Artificial Intelligence of Renmin University of China and Beijing University of Posts and Telecommunications. This dataset contains 1,785 multi-turn role-playing dialogues, totaling 11,376 examples, covering 77 characters sourced from Chinese novels and screenplays. The dataset's construction process includes extracting dialogues using GPT-4, followed by strict manual quality control, and supplementing in-depth character information via Baidu Encyclopedia. CharacterEval is not only used to evaluate the dialogue capabilities of RPCA, but also covers multiple dimensions such as character consistency, role-playing attractiveness, and personality backtesting, aiming to comprehensively evaluate the performance of RPCA and address the shortcomings of existing evaluation methods.
提供机构:
高瓴人工智能学院,中国人民大学
创建时间:
2024-01-03
搜集汇总
数据集介绍

构建方式
CharacterEval数据集的构建过程严谨且系统,首先利用GPT-4从多种中文小说和剧本中提取多轮角色扮演对话,随后通过人工审核确保对话质量,并从百度百科获取详细的角色背景信息,最终形成包含1,785个多轮对话、11,376个示例和77个角色的高质量数据集。
特点
CharacterEval数据集的显著特点在于其多维度的评估体系,涵盖了对话能力、角色一致性、角色扮演吸引力和性格回测四个维度,共包含十三项具体指标。此外,该数据集特别开发了基于人类注释的角色扮演奖励模型CharacterRM,以提高评估的主观指标与人类判断的相关性。
使用方法
CharacterEval数据集适用于评估和提升角色扮演对话代理(RPCA)的能力。研究者和开发者可以利用该数据集进行模型训练和性能评估,通过对比不同模型在十三项指标上的表现,优化RPCA的对话生成和角色一致性。此外,CharacterRM模型可用于快速评估生成对话的质量,辅助模型迭代和改进。
背景与挑战
背景概述
随着大型语言模型(LLMs)的兴起,生成式代理技术得到了革命性的发展,其中角色扮演对话代理(RPCAs)因其能够情感化地吸引用户而备受关注。然而,这一领域的进展受限于缺乏一个全面的评估基准。为此,中国人民大学的Quan Tu、Shilong Fan、Zihang Tian和Rui Yan等研究人员于2024年推出了CharacterEval,这是一个针对RPCA评估的中文基准,并配备了一个高质量的数据集。该数据集包含1,785个多轮角色扮演对话,涵盖11,376个示例,并涉及77个源自中国小说和剧本的角色。CharacterEval通过多维度的评估方法,包括十三个特定指标,旨在全面评估RPCA的能力,推动该领域的发展。
当前挑战
CharacterEval数据集在构建过程中面临多项挑战。首先,现有的数据集质量参差不齐,主要由LLMs生成或因提取方法导致噪音较大,使得评估结果不可靠。其次,角色扮演对话的复杂性要求不仅模仿角色的行为和言语,还需保持角色的知识背景和多轮对话能力。此外,数据集的构建需要从多样化的中国小说和剧本中提取高质量的对话,并通过GPT-4进行初步提取和人工质量控制,以确保数据的真实性和准确性。最后,评估RPCA的能力需要一个多维度的框架,涵盖对话能力、角色一致性、角色扮演吸引力和性格回测等多个方面,这对评估方法的设计提出了高要求。
常用场景
经典使用场景
CharacterEval数据集的经典使用场景在于评估和提升角色扮演对话代理(RPCA)的性能。通过包含1,785个多轮角色扮演对话和11,376个示例,该数据集为研究人员提供了一个全面的基准,用于测试和改进RPCA在模拟特定角色对话中的表现。其丰富的角色背景和详细的对话内容,使得该数据集成为评估RPCA在角色一致性、对话吸引力和情感连贯性等方面的理想工具。
衍生相关工作
基于CharacterEval数据集,研究人员已经开发了多种相关的经典工作。例如,CharacterRM模型通过结合人类注释,显著提高了对RPCA主观指标评估的准确性。此外,还有研究利用该数据集进行多轮对话生成模型的训练和评估,探索了在长对话场景中保持角色一致性和对话吸引力的方法。这些工作不仅丰富了角色扮演对话系统的研究领域,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在角色扮演对话代理(RPCA)领域,CharacterEval数据集的最新研究方向主要集中在提升对话代理的情感互动能力和角色一致性。随着大型语言模型(LLMs)的发展,RPCA在情感参与用户方面展现出巨大潜力。然而,缺乏全面的评估基准成为该领域进步的障碍。CharacterEval通过引入一个包含1,785个多轮角色扮演对话的高质量数据集,填补了这一空白。该数据集不仅涵盖了11,376个对话示例和77个来自中国小说和剧本的角色,还采用了一种多维度的评估方法,包括十三个特定指标,涵盖对话能力、角色一致性、角色扮演吸引力和性格回测四个维度。此外,研究还开发了基于人类注释的角色扮演奖励模型CharacterRM,其与人类判断的相关性优于GPT-4。这些研究不仅推动了RPCA的发展,也为未来在情感计算和虚拟角色互动领域的研究提供了新的方向。
相关研究论文
- 1CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation高瓴人工智能学院,中国人民大学 · 2024年
以上内容由遇见数据集搜集并总结生成



