EmotiW 2015 dataset

Name: EmotiW 2015 dataset
Creator: 汉堡大学信息学系知识技术组
Published: 2018-03-30 23:14:51
License: 暂无描述

arXiv2018-03-30 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1803.11506v1

下载链接

链接失效反馈

官方服务：

资源简介：

EmotiW 2015数据集是由汉堡大学信息学系知识技术组创建的情感语音识别数据集，包含短视频片段，标注有如快乐、悲伤、愤怒等情感类别。每个语音片段大约1-5秒，数据集因其多样性和挑战性被广泛使用。创建过程中，通过从电影中提取音频样本并结合文本情感分析来自动扩充数据集，旨在通过增加情感表达的多样性来提高情感分类模型的准确性和鲁棒性。该数据集主要应用于情感识别领域，特别是在人机交互和医疗健康领域中评估人类情感状态及其动态变化。

The EmotiW 2015 dataset is an affective speech recognition dataset developed by the Knowledge Technology Group of the Department of Informatics, University of Hamburg. It contains short video clips annotated with emotional categories including happiness, sadness, anger and others. Each audio clip lasts approximately 1 to 5 seconds, and this dataset is widely utilized due to its diversity and challenging nature. During its creation, the dataset was automatically augmented by extracting audio samples from films and combining with text sentiment analysis, aiming to enhance the accuracy and robustness of emotion classification models by increasing the diversity of emotional expressions. This dataset is primarily applied in the field of emotion recognition, particularly for assessing human emotional states and their dynamic changes in human-computer interaction and healthcare domains.

提供机构：

汉堡大学信息学系知识技术组

创建时间：

2018-03-30

搜集汇总

数据集介绍

构建方式

在情感计算领域，数据稀缺性长期制约着模型性能的提升。EmotiW 2015数据集的构建依托于真实场景下的多模态采集，其核心来源于电影短片中的情感表达片段。研究团队通过精心筛选包含七种基本情感类别（如快乐、悲伤、愤怒等）的视频剪辑，每段时长约为1至5秒，确保了数据在时间维度上的紧凑性与代表性。采集过程注重说话者的多样性与环境复杂性，涵盖了不同演员、光照条件及背景噪音，从而构建出一个接近真实世界挑战的语料库。训练集与验证集分别包含580和383个视频样本，为模型训练与评估提供了可靠基础。

特点

EmotiW 2015数据集以其高挑战性与真实性著称，其特点体现在多维度复杂性上。该数据集囊括了丰富的情感类别，不仅覆盖基本情绪，还融入了中性状态，为细粒度情感分析提供了可能。样本来源广泛，涉及不同说话者的语音变异、多样的录音环境以及非受控的视觉背景，这些因素共同增加了分类任务的难度。数据集中每个样本均为短时音频-视频对，时长限制在数秒内，要求模型具备高效的特征提取与序列建模能力。其多模态本质支持跨视听信号的情感融合研究，但同时也对噪声鲁棒性与特征对齐提出了更高要求。

使用方法

使用EmotiW 2015数据集时，研究者通常遵循多阶段实验流程以充分发挥其价值。首先，从原始视频中提取音频流，并转换为频谱图等声学特征，常用方法包括快速傅里叶变换，并过滤高频噪声以突出情感相关频段。在模型设计上，循环神经网络如门控循环单元常被用于处理时序声学序列，结合双向结构与时间池化来捕捉长程依赖。为应对数据稀缺，可采用迁移学习策略，例如在外部情感音频数据集上进行预训练，再微调至本数据集的多分类任务。评估时，官方验证集用于性能度量，而测试集标签未公开，确保了基准比较的公正性。该数据集适用于二进制及多类情感分类，并支持跨模态融合方法的探索。

背景与挑战

背景概述

EmotiW 2015数据集由Abhinav Dhall等人于2015年构建，作为情感计算领域的重要基准，专注于在自然环境中识别视频片段中的情感状态。该数据集包含短时视频剪辑，标注了快乐、悲伤、愤怒、恐惧、中性、厌恶和惊讶等七类情感标签，每段音频时长约1至5秒。其核心研究问题在于提升多模态情感识别的准确性与鲁棒性，尤其在复杂现实场景下，如光照变化、背景噪音和不同演员表现差异等干扰因素。EmotiW数据集推动了情感识别技术在人机交互、医疗健康等领域的应用，成为后续研究广泛采用的评估标准。

当前挑战

EmotiW数据集面临的挑战主要体现在两个方面：首先，在领域问题层面，情感识别任务本身具有高度复杂性，由于情感表达的多样性和主观性，模型难以准确区分细微情感类别，尤其是在多模态融合中，音频与视觉信号的不对齐可能降低分类性能。其次，在构建过程中，数据采集面临现实环境的干扰，如背景噪音、光照不均和演员表现差异，导致标注质量受限；同时，情感样本的稀缺性使得数据集规模较小，限制了深度学习模型的泛化能力，需要通过数据增强或外部资源补充来提升模型效果。

常用场景

经典使用场景

在情感计算领域，EmotiW 2015数据集作为一项权威基准，常被用于评估多模态情感识别模型的性能。该数据集包含从现实场景中采集的短视频片段，涵盖了七种基本情感类别，如快乐、悲伤、愤怒等，其多样化的演员、光照条件和背景噪音使其成为极具挑战性的测试平台。研究者通常利用该数据集训练和验证结合音频与视觉信号的情感分类模型，以探索跨模态信息融合的有效性，推动情感识别技术向更自然、更鲁棒的方向发展。

衍生相关工作

围绕EmotiW 2015数据集，衍生出一系列经典研究工作，例如基于深度神经网络的跨模态融合方法，如结合卷积神经网络与循环神经网络的混合架构，以同时处理视觉和音频特征。此外，迁移学习策略被广泛采用，通过在大规模无标注数据上预训练模型，再在EmotiW上进行微调，显著提升了分类性能。这些工作不仅推动了情感识别技术的进步，也为多模态学习理论提供了丰富实证案例。

数据集最近研究