CPED|对话AI数据集|情感分析数据集

arXiv2022-05-30 更新2024-06-21 收录

对话AI

情感分析

下载链接：

https://github.com/scutcyr/CPED

下载链接

链接失效反馈

资源简介：

CPED数据集是由华南理工大学电子与信息工程学院的研究团队开发的一个大规模中文个性化和情感对话数据集。该数据集包含超过12000个对话，涉及392个说话者，这些对话来自40部电视剧，涵盖了性别、五大人格特质、13种情感、19种对话行为和10个场景等多源知识。数据集旨在为对话AI提供丰富的情感和个性化信息，支持如性格识别、情感识别和个性化情感对话生成等任务的研究。

提供机构：

华南理工大学电子与信息工程学院

创建时间：

2022-05-30

AI搜集汇总

数据集介绍

构建方式

为了构建CPED数据集，研究者从40部与日常生活密切相关的电视剧中收集了大量视频，并利用开发的应用程序筛选出富含情感和个性的对话片段。这些片段由心理学专业人士进行标注，包括情感、个性特征、对话行为和场景等信息。数据集包含超过12,000个对话和133,000个话语，涵盖了性别、五大人格特质、13种情感、19种对话行为和10种场景。最终，研究者根据版权声明、隐私问题和视频平台的条款，发布了包含文本、音频特征和视频特征的数据集。

特点

CPED数据集的特点在于它包含了丰富的个性化和情感化信息。数据集不仅提供了对话文本，还包括了音频和视频特征，这使得对话系统可以更好地理解说话者的个性和情感状态。此外，CPED数据集还标注了说话者的性别、年龄和五大人格特质，以及对话中的情感和对话行为，这些信息可以作为先验外部知识用于开放域对话生成，使对话系统具有更好的个性化表达能力。

使用方法

CPED数据集的使用方法包括三个主要任务：对话中的人格识别、对话中的情感识别以及个性化和情感化对话生成。研究者提供了基于BERT和GPT的基线模型，并进行了实验验证。在人格识别和情感识别任务中，研究者使用了多种模型，包括BERTs、BERTc、BERTc senet和BERTc ssenet，并对它们的性能进行了比较。在个性化和情感化对话生成任务中，研究者提出了三种生成模型：无控制信号、隐式嵌入和显式融合，并进行了自动和人工评估。实验结果表明，显式融合方法能够更有效地提高对话系统的个性化和情感化表达能力。

背景与挑战

背景概述

随着人工智能技术的不断发展，对话系统在人际交互、陪伴、抑郁症治疗、自闭症干预等领域发挥着越来越重要的作用。然而，现有的对话数据集往往忽略了人类个性与情感因素，或者只考虑了其中的一部分。为了更好地理解说话者的个性和情感，陈怡蓉等研究者提出了CPED数据集，这是一个大规模的中文个性化情感对话数据集，包含与同理心和个性特征相关的多源知识。CPED数据集涵盖了性别、五大人格特质、13种情感、19种对话行为和10种场景，包含超过12K个对话和392位说话者。该数据集的构建旨在为自然语言处理社区提供一个新的开放基准，以促进对话人工智能研究的发展。

当前挑战

CPED数据集面临的挑战主要包括：1) 缺乏长期稳定的人格特质，如性别、年龄和五大人格特质；2) 缺乏对话过程中动态的情感或对话行为。此外，CPED数据集的构建过程中也面临一些挑战，如：1) 如何从大规模文本语料库中学习表达能力；2) 如何构建一个包含情感信息和说话者个性的对话数据集；3) 如何有效地对情感和个性进行标注。

常用场景

经典使用场景

CPED数据集在对话系统的个性化与情感表达方面具有重要的应用价值。该数据集包含丰富的对话文本、音频和视频特征，以及关于说话者的性别、大五人格特质、情绪、对话行为和场景等多源知识。这些信息有助于对话系统更好地理解和模拟人类对话中的个性和情感变化，从而实现更加自然和人性化的对话生成。

解决学术问题

CPED数据集解决了对话系统中长期稳定的个性和动态情绪表达的问题。现有的对话数据集通常缺乏关于说话者个性和情感的标注信息，或者只考虑部分信息。CPED数据集提供了全面的人格和情感标注，使得对话系统能够更好地理解和模拟人类对话中的个性和情感变化，从而提高对话系统的自然度和人性化程度。

衍生相关工作

CPED数据集的提出为对话系统的个性化与情感表达研究提供了新的思路和数据支持。基于CPED数据集，研究者可以开展更多关于对话系统认知处理、个性化对话生成、情感对话生成等方面的研究。此外，CPED数据集还可以与其他对话数据集进行结合，构建更加全面的对话数据集，进一步推动对话系统的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集，专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象，包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息，并提供了加载和评估数据集的示例代码。

huggingface 收录