CPED

Name: CPED
Creator: 华南理工大学电子与信息工程学院
Published: 2022-05-30 01:45:12
License: 暂无描述

arXiv2022-05-30 更新2024-06-21 收录

下载链接：

https://github.com/scutcyr/CPED

下载链接

链接失效反馈

官方服务：

资源简介：

CPED数据集是由华南理工大学电子与信息工程学院的研究团队开发的一个大规模中文个性化和情感对话数据集。该数据集包含超过12000个对话，涉及392个说话者，这些对话来自40部电视剧，涵盖了性别、五大人格特质、13种情感、19种对话行为和10个场景等多源知识。数据集旨在为对话AI提供丰富的情感和个性化信息，支持如性格识别、情感识别和个性化情感对话生成等任务的研究。

The CPED Dataset is a large-scale Chinese personalized and emotional dialogue dataset developed by the research team from the School of Electronics and Information Engineering, South China University of Technology. It contains over 12,000 dialogues involving 392 speakers sourced from 40 TV dramas. The dataset covers multi-source knowledge including gender, Big Five Personality Traits, 13 types of emotions, 19 dialogue acts, and 10 scenarios. This dataset aims to provide rich emotional and personalized information for conversational AI, supporting research on tasks such as personality recognition, emotion recognition, and personalized emotional dialogue generation.

提供机构：

华南理工大学电子与信息工程学院

创建时间：

2022-05-30

搜集汇总

数据集介绍

构建方式

为了构建CPED数据集，研究者从40部与日常生活密切相关的电视剧中收集了大量视频，并利用开发的应用程序筛选出富含情感和个性的对话片段。这些片段由心理学专业人士进行标注，包括情感、个性特征、对话行为和场景等信息。数据集包含超过12,000个对话和133,000个话语，涵盖了性别、五大人格特质、13种情感、19种对话行为和10种场景。最终，研究者根据版权声明、隐私问题和视频平台的条款，发布了包含文本、音频特征和视频特征的数据集。

特点

CPED数据集的特点在于它包含了丰富的个性化和情感化信息。数据集不仅提供了对话文本，还包括了音频和视频特征，这使得对话系统可以更好地理解说话者的个性和情感状态。此外，CPED数据集还标注了说话者的性别、年龄和五大人格特质，以及对话中的情感和对话行为，这些信息可以作为先验外部知识用于开放域对话生成，使对话系统具有更好的个性化表达能力。

使用方法

CPED数据集的使用方法包括三个主要任务：对话中的人格识别、对话中的情感识别以及个性化和情感化对话生成。研究者提供了基于BERT和GPT的基线模型，并进行了实验验证。在人格识别和情感识别任务中，研究者使用了多种模型，包括BERTs、BERTc、BERTc senet和BERTc ssenet，并对它们的性能进行了比较。在个性化和情感化对话生成任务中，研究者提出了三种生成模型：无控制信号、隐式嵌入和显式融合，并进行了自动和人工评估。实验结果表明，显式融合方法能够更有效地提高对话系统的个性化和情感化表达能力。

背景与挑战

背景概述

随着人工智能技术的不断发展，对话系统在人际交互、陪伴、抑郁症治疗、自闭症干预等领域发挥着越来越重要的作用。然而，现有的对话数据集往往忽略了人类个性与情感因素，或者只考虑了其中的一部分。为了更好地理解说话者的个性和情感，陈怡蓉等研究者提出了CPED数据集，这是一个大规模的中文个性化情感对话数据集，包含与同理心和个性特征相关的多源知识。CPED数据集涵盖了性别、五大人格特质、13种情感、19种对话行为和10种场景，包含超过12K个对话和392位说话者。该数据集的构建旨在为自然语言处理社区提供一个新的开放基准，以促进对话人工智能研究的发展。

当前挑战

CPED数据集面临的挑战主要包括：1) 缺乏长期稳定的人格特质，如性别、年龄和五大人格特质；2) 缺乏对话过程中动态的情感或对话行为。此外，CPED数据集的构建过程中也面临一些挑战，如：1) 如何从大规模文本语料库中学习表达能力；2) 如何构建一个包含情感信息和说话者个性的对话数据集；3) 如何有效地对情感和个性进行标注。

常用场景

经典使用场景

CPED数据集在对话系统的个性化与情感表达方面具有重要的应用价值。该数据集包含丰富的对话文本、音频和视频特征，以及关于说话者的性别、大五人格特质、情绪、对话行为和场景等多源知识。这些信息有助于对话系统更好地理解和模拟人类对话中的个性和情感变化，从而实现更加自然和人性化的对话生成。

解决学术问题

CPED数据集解决了对话系统中长期稳定的个性和动态情绪表达的问题。现有的对话数据集通常缺乏关于说话者个性和情感的标注信息，或者只考虑部分信息。CPED数据集提供了全面的人格和情感标注，使得对话系统能够更好地理解和模拟人类对话中的个性和情感变化，从而提高对话系统的自然度和人性化程度。

衍生相关工作

CPED数据集的提出为对话系统的个性化与情感表达研究提供了新的思路和数据支持。基于CPED数据集，研究者可以开展更多关于对话系统认知处理、个性化对话生成、情感对话生成等方面的研究。此外，CPED数据集还可以与其他对话数据集进行结合，构建更加全面的对话数据集，进一步推动对话系统的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集