六种新型ERC数据集

Name: 六种新型ERC数据集
Creator: 德国汉堡大学计算机科学系
Published: 2025-08-07 23:13:55
License: 暂无描述

arXiv2025-08-07 更新2025-08-09 收录

下载链接：

https://huggingface.co/l11a-13D-V1.-

下载链接

链接失效反馈

官方服务：

资源简介：

本研究创建了六种新型ERC数据集，以补充现有数据集的不足，并为ERC分类提供更多样化的数据支持。这些数据集通过LLM生成，具有高一致性和可靠性，可用于训练ERC模型。数据集类型分为“自然”和“平衡”，其中“自然”数据集展示LLM生成对话的潜力，而“平衡”数据集旨在解决现有数据集的情感标签不平衡问题。这些数据集的生成过程和参数已在论文中公开，以确保可重复性。

This study developed six novel ERC datasets to fill the gaps in existing datasets and provide more diverse data support for ERC classification. These datasets are generated via LLMs, featuring high consistency and reliability, and can be utilized for training ERC models. The datasets are categorized into two types: "natural" and "balanced". The "natural" datasets showcase the potential of LLM-generated conversations, while the "balanced" datasets are designed to resolve the emotional label imbalance issue in existing datasets. The generation processes and parameters of these datasets have been publicly released in the accompanying paper to ensure reproducibility.

提供机构：

德国汉堡大学计算机科学系

创建时间：

2025-08-07

搜集汇总

数据集介绍

构建方式

六种新型ERC数据集的构建采用了小型、资源高效且通用的语言模型（LLM）进行合成，旨在补充现有的三种广泛使用的ERC基准数据集。通过精心设计的提示工程，模型生成包含多样属性的对话数据，同时确保情感标签的一致性。每个生成的数据集均针对MELD、EmoryNLP和IEMOCAP基准进行了优化，生成了两种类型的数据集：自然数据集和平衡数据集。自然数据集模拟真实对话中的情感分布，而平衡数据集则通过特定提示确保罕见情感的出现频率，以缓解类别不平衡问题。生成过程中，所有参数和提示均公开以确保可重复性。

使用方法

六种新型ERC数据集的使用方法主要包括三个步骤：首先，研究者可以根据需要选择自然数据集或平衡数据集进行模型训练，以评估模型在不同情感分布下的表现。其次，数据集可用于补充现有ERC基准，通过微调预训练模型来提升情感识别的性能。最后，数据集还可用于分析情感标签不平衡对模型性能的影响，为未来的数据集构建提供参考。所有数据集均提供了训练、验证和测试集的划分，方便研究者进行模型评估和比较。

背景与挑战

背景概述

六种新型ERC数据集由Burak Can Kaplan、Hugo Cesar De Castro Carneiro和Stefan Wermter等研究人员于2025年提出，旨在解决对话中情感识别（ERC）领域数据稀缺和现有数据集偏差严重的问题。该数据集通过小型、资源高效的大型语言模型（LLM）生成，补充了三种广泛使用的ERC基准数据集（MELD、IEMOCAP和EmoryNLP），每种基准对应生成了两种新型数据集（自然型和平衡型）。其核心研究问题是通过LLM生成高质量、多样化的ERC数据，以提升情感识别模型的鲁棒性和性能。这一工作为情感计算领域提供了新的数据生成方法，显著降低了传统数据收集与标注的成本和复杂性。

当前挑战

六种新型ERC数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，ERC任务本身具有高度主观性，情感标签的标注常因人工标注者的不一致性导致可靠性问题，且现有数据集标签分布不平衡（如MELD中Disgust和Fear标签稀缺）。在构建过程中，LLM生成数据需解决以下问题：1) 生成对话的自然性与多样性之间的平衡；2) 确保情感标签与对话内容的一致性，避免LLM的幻觉现象；3) 不同数据集标签集的异构性（如MELD与EmoryNLP的标签类别差异）限制了数据的可迁移性。此外，构建平衡型数据集时需通过提示工程强制覆盖稀有情感标签，可能牺牲部分对话的自然性。

常用场景

经典使用场景

六种新型ERC数据集在对话情感识别（ERC）领域具有广泛的应用前景。该数据集通过小型、资源高效的大型语言模型（LLM）生成，补充了现有的三个主要ERC基准数据集（MELD、EmoryNLP和IEMOCAP）。其经典使用场景包括训练和评估ERC分类模型，尤其是在处理情感标签不平衡和多语言对话数据时表现出色。该数据集通过生成多样化的对话内容和情感标签，显著提升了ERC模型的鲁棒性和性能。

解决学术问题

六种新型ERC数据集解决了ERC领域中的多个关键学术问题。首先，它缓解了现有数据集因来源偏差和主观标注导致的数据稀缺问题。其次，通过生成自然和平衡两种类型的数据集，该研究探索了标签分布对模型性能的影响，为情感识别中的类别不平衡问题提供了新的解决方案。此外，数据集生成过程中采用的结构化提示工程和逻辑推理技术，显著提高了情感标签的一致性和可靠性，为ERC数据生成方法学提供了重要参考。

实际应用

在实际应用中，六种新型ERC数据集为开发情感智能系统（如社交机器人和虚拟助手）提供了高质量的训练数据。其生成的自然数据集能够模拟真实对话中的情感分布，适用于需要高自然度的场景；而平衡数据集则通过均匀分布的情感标签，提升了模型在罕见情感类别上的识别能力。此外，该数据集的生成方法成本低、可复现性强，为中小企业和研究机构开展ERC研究提供了可行的技术路径。

数据集最近研究