five

CharacterEval|角色扮演对话数据集|人工智能评估数据集

收藏
arXiv2024-01-10 更新2024-06-21 收录
角色扮演对话
人工智能评估
下载链接:
https://github.com/morecry/CharacterEval
下载链接
链接失效反馈
资源简介:
CharacterEval是一个专为评估中文角色扮演对话代理(RPCA)而设计的大型数据集,由中国人民大学和北京邮电大学的人工智能学院共同创建。该数据集包含1,785个多轮角色扮演对话,总计11,376个示例,涵盖77个来自中国小说和剧本的角色。数据集的构建过程包括使用GPT-4提取对话,随后进行严格的人工质量控制,并通过百度百科补充深入的角色资料。CharacterEval不仅用于评估RPCA的对话能力,还涉及角色一致性、角色扮演吸引力和个性回测等多个维度,旨在全面评估RPCA的性能,解决现有评估方法的不足。
提供机构:
高瓴人工智能学院,中国人民大学
创建时间:
2024-01-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
CharacterEval数据集的构建过程严谨且系统,首先利用GPT-4从多种中文小说和剧本中提取多轮角色扮演对话,随后通过人工审核确保对话质量,并从百度百科获取详细的角色背景信息,最终形成包含1,785个多轮对话、11,376个示例和77个角色的高质量数据集。
特点
CharacterEval数据集的显著特点在于其多维度的评估体系,涵盖了对话能力、角色一致性、角色扮演吸引力和性格回测四个维度,共包含十三项具体指标。此外,该数据集特别开发了基于人类注释的角色扮演奖励模型CharacterRM,以提高评估的主观指标与人类判断的相关性。
使用方法
CharacterEval数据集适用于评估和提升角色扮演对话代理(RPCA)的能力。研究者和开发者可以利用该数据集进行模型训练和性能评估,通过对比不同模型在十三项指标上的表现,优化RPCA的对话生成和角色一致性。此外,CharacterRM模型可用于快速评估生成对话的质量,辅助模型迭代和改进。
背景与挑战
背景概述
随着大型语言模型(LLMs)的兴起,生成式代理技术得到了革命性的发展,其中角色扮演对话代理(RPCAs)因其能够情感化地吸引用户而备受关注。然而,这一领域的进展受限于缺乏一个全面的评估基准。为此,中国人民大学的Quan Tu、Shilong Fan、Zihang Tian和Rui Yan等研究人员于2024年推出了CharacterEval,这是一个针对RPCA评估的中文基准,并配备了一个高质量的数据集。该数据集包含1,785个多轮角色扮演对话,涵盖11,376个示例,并涉及77个源自中国小说和剧本的角色。CharacterEval通过多维度的评估方法,包括十三个特定指标,旨在全面评估RPCA的能力,推动该领域的发展。
当前挑战
CharacterEval数据集在构建过程中面临多项挑战。首先,现有的数据集质量参差不齐,主要由LLMs生成或因提取方法导致噪音较大,使得评估结果不可靠。其次,角色扮演对话的复杂性要求不仅模仿角色的行为和言语,还需保持角色的知识背景和多轮对话能力。此外,数据集的构建需要从多样化的中国小说和剧本中提取高质量的对话,并通过GPT-4进行初步提取和人工质量控制,以确保数据的真实性和准确性。最后,评估RPCA的能力需要一个多维度的框架,涵盖对话能力、角色一致性、角色扮演吸引力和性格回测等多个方面,这对评估方法的设计提出了高要求。
常用场景
经典使用场景
CharacterEval数据集的经典使用场景在于评估和提升角色扮演对话代理(RPCA)的性能。通过包含1,785个多轮角色扮演对话和11,376个示例,该数据集为研究人员提供了一个全面的基准,用于测试和改进RPCA在模拟特定角色对话中的表现。其丰富的角色背景和详细的对话内容,使得该数据集成为评估RPCA在角色一致性、对话吸引力和情感连贯性等方面的理想工具。
衍生相关工作
基于CharacterEval数据集,研究人员已经开发了多种相关的经典工作。例如,CharacterRM模型通过结合人类注释,显著提高了对RPCA主观指标评估的准确性。此外,还有研究利用该数据集进行多轮对话生成模型的训练和评估,探索了在长对话场景中保持角色一致性和对话吸引力的方法。这些工作不仅丰富了角色扮演对话系统的研究领域,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在角色扮演对话代理(RPCA)领域,CharacterEval数据集的最新研究方向主要集中在提升对话代理的情感互动能力和角色一致性。随着大型语言模型(LLMs)的发展,RPCA在情感参与用户方面展现出巨大潜力。然而,缺乏全面的评估基准成为该领域进步的障碍。CharacterEval通过引入一个包含1,785个多轮角色扮演对话的高质量数据集,填补了这一空白。该数据集不仅涵盖了11,376个对话示例和77个来自中国小说和剧本的角色,还采用了一种多维度的评估方法,包括十三个特定指标,涵盖对话能力、角色一致性、角色扮演吸引力和性格回测四个维度。此外,研究还开发了基于人类注释的角色扮演奖励模型CharacterRM,其与人类判断的相关性优于GPT-4。这些研究不仅推动了RPCA的发展,也为未来在情感计算和虚拟角色互动领域的研究提供了新的方向。
相关研究论文
  • 1
    CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation高瓴人工智能学院,中国人民大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录