CAPE

Name: CAPE
Creator: 国际数字经济学院 (IDEA)
Published: 2024-10-18 11:33:18
License: 暂无描述

arXiv2024-10-18 更新2024-10-22 收录

下载链接：

http://arxiv.org/abs/2410.14145v1

下载链接

链接失效反馈

官方服务：

资源简介：

CAPE数据集是由国际数字经济学院 (IDEA) 和密歇根大学等机构合作创建的，旨在通过认知评估理论生成基于情感的中文对话数据集。该数据集包含2,848个多轮对话，涵盖15种不同的情感类别，旨在帮助大型语言模型生成更符合人类情感表达的对话。数据集的创建过程结合了个人特质、情境因素和评估过程，确保了对话的情感和内容的高度一致性。CAPE数据集主要应用于情感预测和下一句预测任务，旨在提升对话系统中情感表达的自然度和准确性。

The CAPE dataset was collaboratively developed by the International Digital Economy Academy (IDEA), the University of Michigan, and other institutions. It is designed to generate emotion-based Chinese dialogue datasets through Cognitive Appraisal Theory. This dataset contains 2,848 multi-turn conversations covering 15 distinct emotion categories, aiming to help Large Language Models (LLMs) generate dialogues that better conform to human emotional expression patterns. The creation process of the dataset combines personal traits, situational factors and evaluation procedures, ensuring high consistency between the emotional tones and content of the dialogues. The CAPE dataset is mainly applied to emotion prediction and next-sentence prediction tasks, with the objective of enhancing the naturalness and accuracy of emotional expressions in dialogue systems.

提供机构：

国际数字经济学院 (IDEA)

创建时间：

2024-10-18

搜集汇总

数据集介绍

构建方式

CAPE数据集的构建基于认知评估理论（Cognitive Appraisal Theory），采用两阶段自动数据生成框架。首先，根据个人特质、目标和情境构建生成信念和知识。随后，通过评估过程，结合对话历史和预定义的个体因素，生成情绪标签和对应的话语。这一自动数据合成框架生成了包含2,848个多轮对话的CAPE数据集，涵盖15种不同的情绪。数据集经过严格的清洗和人工评估，确保情绪标签的准确性、上下文的一致性和对话的流畅性。

特点

CAPE数据集的显著特点在于其基于认知评估理论的构建方式，确保了对话中情绪反应的上下文适当性。数据集涵盖了广泛的个人和情境因素，包括个性、目标、信念和知识，使得生成的对话更加丰富和真实。此外，CAPE数据集在情绪和情境的覆盖范围上超越了现有的数据集，提供了更为多样化和细致的对话情境。

使用方法

CAPE数据集可用于训练和评估情感对话生成模型，特别适用于情感预测和下一话语预测任务。研究者可以通过该数据集微调大型语言模型，以提升其在情感表达和对话生成中的表现。评估方法包括情绪标签的准确性、情绪与话语的一致性、情绪与上下文的一致性、情绪强度、对话的连贯性和流畅性。通过这些评估，可以全面检验模型在情感对话生成中的性能。

背景与挑战

背景概述

在人机交互领域，情感的表达与理解一直是研究的核心问题。特别是在大型语言模型（LLMs）的应用中，生成与情境相符的情感响应对于提升交互的自然性和机器的人性化至关重要。然而，人类情感的复杂性和认知过程的多样性使得这一任务充满挑战。为此，Liu等人于2024年提出了CAPE数据集，这是一个基于认知评估理论（Cognitive Appraisal Theory, CAT）的中文情感生成数据集。该数据集由国际数字经济学院（IDEA）、密歇根大学、香港科技大学和加州大学洛杉矶分校的研究人员共同创建，旨在通过考虑个人和情境因素，生成具有情境适当性的情感对话。CAPE数据集的引入不仅推动了情感表达在对话代理中的研究，也为更细致和有意义的人机交互铺平了道路。

当前挑战

CAPE数据集在构建过程中面临多重挑战。首先，情感生成领域的问题复杂，涉及个人特质、情境影响及个体对当前情境的评估，这些因素的交互作用使得情感生成任务异常复杂。其次，构建过程中需要设计一个自动化的数据生成框架，以确保生成的对话能够准确反映情感和行为的动态变化。此外，由于现有研究主要集中在英文情感表达上，CAPE数据集在跨文化情感理解方面也提出了新的挑战。最后，数据集的质量控制和人工评估也是一大难题，确保情感标签的准确性和对话内容的情境适当性需要精细的操作和严格的评估标准。

常用场景

经典使用场景

CAPE数据集的经典使用场景在于情感生成与对话系统的开发。通过该数据集，研究者能够训练和评估模型在多轮对话中生成符合情境的情感响应。具体任务包括情感预测和下一话语预测，这些任务要求模型不仅理解对话的上下文，还需捕捉并表达适当的情感，从而提升人机交互的自然度和情感共鸣。

解决学术问题

CAPE数据集解决了情感生成领域中的多个关键学术问题。首先，它填补了中文情感对话数据集的空白，为跨文化情感研究提供了丰富的资源。其次，通过引入认知评估理论（CAT），数据集帮助模型更深入地理解情感生成的复杂心理过程，从而提高情感响应的准确性和适当性。此外，CAPE还推动了多模态情感识别和生成技术的发展，为情感智能研究开辟了新的方向。

衍生相关工作

CAPE数据集的推出激发了大量相关研究工作。例如，基于CAPE的情感生成模型已被应用于多模态情感识别系统，进一步提升了情感分析的准确性。同时，研究者们也开始探索如何将CAPE中的认知评估理论应用于其他语言和文化背景下的情感生成任务。此外，CAPE的成功还推动了更多大规模情感对话数据集的创建，促进了情感智能领域的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集