EMOSET
收藏arXiv2021-03-11 更新2024-06-21 收录
下载链接:
https://github.com/EIHW/EmoNet
下载链接
链接失效反馈官方服务:
资源简介:
EMOSET是由University of Augsburg的研究人员Maurice Gerczuk、Shahin Amiriparian、Sandra Ottl和Björn W. Schuller共同创建的一个大规模情感语音数据集。该数据集整合了来自26个现有语音情感识别(SER)语料库的84,181个音频记录,总时长超过65小时。EMOSET不仅包含已发布的SER数据库,还包括一些未发布的语音数据库,这些数据来源于健康与福祉嵌入式智能主席(University of Augsburg),用于进一步增强训练数据,以提高深度学习模型的泛化能力和减少过拟合问题。数据集中的每个数据集都包括分类情感标签,总体上共有84,161个样本,总时长为65.6小时,所有音频记录的平均时长为2.81秒。
EMOSET is a large-scale emotional speech dataset created by researchers Maurice Gerczuk, Shahin Amiriparian, Sandra Ottl and Björn W. Schuller from the University of Augsburg. It compiles 84,181 audio recordings from 26 existing speech emotion recognition (SER) corpora, with a total duration exceeding 65 hours. EMOSET includes not only published SER databases, but also some unpublished speech datasets sourced from the Chair of Embedded Intelligence for Health and Wellbeing at the University of Augsburg. These data are used to further enhance the training corpus, so as to improve the generalization ability of deep learning models and mitigate overfitting issues. Each constituent dataset within the corpus is paired with categorical emotion labels. In total, the full dataset contains 84,161 samples, with a total duration of 65.6 hours, and the average duration of all audio recordings is 2.81 seconds.
提供机构:
University of Augsburg
创建时间:
2021-03-11
搜集汇总
数据集介绍

构建方式
在视觉情感分析领域,构建高质量数据集是推动研究进展的关键。EmoSet的构建过程始于基于Mikels八类情感模型(包括愉悦、敬畏、满足、兴奋、愤怒、厌恶、恐惧和悲伤)的810个情感关键词查询,从openverse、pexels、pixabay和rawpixel四个来源检索了430万张候选图像。经过去重和标签投票筛选,最终形成了包含330万张图像的EmoSet-3.3M数据集。其中,11.8万张图像通过严格的人类标注流程进一步精炼,形成EmoSet-118K子集。标注过程中,每位标注者需通过共情商数测试和情感分类准确率评估,确保标注质量;每张图像由10名标注者独立验证情感类别及六类情感属性(亮度、色彩丰富度、场景类型、物体类别、面部表情和人类动作),并以超过七成共识作为最终标签,有效提升了数据的可靠性与一致性。
特点
EmoSet在视觉情感数据集中展现出多方面的显著优势。其规模达到118,102张人工标注图像,是现有最大数据集FI的五倍,为大规模监督学习提供了坚实基础。数据标注的丰富性尤为突出,除八类情感标签外,每张图像还标注了六类可描述的情感属性,涵盖从低层视觉特征到高层语义信息的多层次内容,为理解情感诱发机制提供了细粒度解释依据。数据来源的多样性体现在同时包含社交媒体图像和艺术摄影作品,增强了模型的泛化能力。此外,数据集在八类情感间的分布较为均衡,每类图像数量介于10,660至19,828之间,有效缓解了类别偏差对模型训练的负面影响。
使用方法
EmoSet为视觉情感分析研究提供了多方面的应用路径。在模型训练方面,研究者可利用其大规模标注数据训练深度神经网络,提升情感分类性能;数据集的平衡分布有助于避免模型对多数类的过拟合。情感属性标注为可解释性研究提供了契机,通过分析属性与情感类别的关联(如亮度与积极情感的正相关),可深入探究视觉刺激与情感反应之间的内在机制。跨数据集验证实验表明,基于EmoSet训练的模型在FI和Artphoto等外部数据集上表现出良好的泛化能力,证实其表征学习的鲁棒性。此外,该数据集支持多模态学习、弱监督学习等前沿方向,其文本-图像对和属性标注为视觉-语言联合建模及细粒度情感分析提供了丰富资源。
背景与挑战
背景概述
视觉情感分析作为情感计算领域的前沿分支,致力于探究人类对视觉刺激的情感反应机制。由深圳大学、耶路撒冷希伯来大学及特拉维夫大学的研究团队于2023年共同构建的EMOSET数据集,标志着该领域在数据资源建设上的重要突破。该数据集以Mikels的八类情感模型为基础,不仅收录了330万张图像,更创新性地引入了亮度、色彩丰富度、场景类型、物体类别、面部表情及人类动作六类情感属性标注,旨在通过多维度特征桥接图像与情感之间的‘情感鸿沟’。其规模超越现有最大数据集的五倍,且涵盖了社交媒体与艺术类图像的多元来源,在推动视觉情感识别向可解释性理解迈进方面具有深远影响。
当前挑战
视觉情感分析领域长期面临情感抽象性、主观性及标注一致性等核心挑战。EMOSET针对图像情感分类任务,需克服情感标签与视觉内容间复杂的非线性映射问题,例如同一图像可能引发多元情感反应,而离散的八类情感模型难以完全捕捉情感的连续谱系。在构建过程中,研究团队需应对大规模数据收集与清洗的复杂性,包括从多源平台检索图像并消除重复样本;同时,设计兼顾心理学依据与计算可行性的属性标注体系,并通过严格的注释者筛选与多数投票机制来缓解标注主观性,确保118,102张人工标注图像的高质量与可靠性。
常用场景
经典使用场景
在视觉情感分析领域,EmoSet数据集被广泛应用于训练和评估深度学习模型,以预测图像所引发的情感反应。该数据集凭借其大规模、多源性和平衡性,为研究者提供了丰富的视觉情感样本,涵盖了从社交媒体图像到艺术作品的广泛类型。通过结合八种情感类别和六种情感属性,EmoSet支持细粒度的情感识别任务,使得模型能够更精确地捕捉图像中的情感线索,从而在视觉情感分类任务中达到较高的准确率。
解决学术问题
EmoSet数据集解决了视觉情感分析中数据规模有限、标注单一和类别不平衡等关键学术问题。传统数据集往往规模较小或情感类别分布不均,导致模型泛化能力不足。EmoSet通过提供330万张图像,其中11.8万张经过人工精细标注,并引入亮度、色彩丰富度、场景类型等情感属性,有效弥合了图像与情感之间的“情感鸿沟”。这些属性基于心理学研究设计,增强了情感理解的解释性,推动了从单纯的情感识别向深层情感理解的学术转变。
衍生相关工作
EmoSet数据集的发布催生了一系列经典研究工作,特别是在属性增强的情感识别模型和多模态情感分析方面。例如,研究者基于EmoSet的属性标注设计了属性模块,将其集成到卷积神经网络中,显著提升了情感分类性能。此外,该数据集还促进了视觉情感生成、情感编辑以及视觉-语言联合建模等方向的发展。这些衍生工作不仅深化了对视觉情感机制的理解,也为情感计算在更广泛领域的应用奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



