EMER-Coarse|情感识别数据集|人机交互数据集
收藏arXiv2024-07-10 更新2024-07-11 收录
下载链接:
https://github.com/zeroQiaoba/AffectGPT
下载链接
链接失效反馈资源简介:
EMER-Coarse数据集由中国科学院自动化研究所构建,专注于可解释的多模态情感识别任务。该数据集包含115,595个样本,基于MER2024-SEMI数据集,涵盖了大量以人为中心的视频。数据集的创建过程中,采用了简化的标注流程和开源模型,以降低人工检查和闭源模型的依赖。EMER-Coarse数据集主要用于提高情感识别的准确性和可靠性,特别是在人机交互领域的应用。
提供机构:
中国科学院自动化研究所
创建时间:
2024-07-10
原始信息汇总
EMER数据集
数据集构建
初始数据集
- 来源:从MER 2023数据集中选取样本。
- 下载方式:需填写EULA并发送到lianzheng2016@ia.ac.cn。
EMER-V1
- 样本数量:100个非中性样本。
- 详细信息:详见arXiv论文。
- 数据位置:
./EMER/dataset-v1。
EMER-V2
- 样本数量:332个样本。
- 注释方法:使用GPT-4V进行初始注释,结合人工检查和ChatGPT的推理能力。
- 详细信息:详见arXiv论文。
- 数据位置:
./EMER/dataset-v2。
AffectGPT
- 目标:训练一个音频-视频-文本对齐模型,用于可解释的多模态情感推理。
- 实现:基于Video-LLaMA进行修改,支持音频-视频-文本对齐训练。
- 代码位置:
./AffectGPT。 - 当前支持:仅提供使用EMER-V1数据集进行训练的代码。
- 更多实验结果:详见arXiv论文。
AI搜集汇总
数据集介绍

构建方式
EMER-Coarse数据集的构建基于MER2024-SEMI,该数据集包含115,595个以人为中心的视频。构建过程中,研究团队简化了标注流程,避免了手动检查,并使用开源模型替代了闭源模型。具体步骤包括预标注音频和视频线索、去歧义字幕以及翻译以获得双语描述。通过这些自动化步骤,大幅降低了标注成本,从而构建了一个大规模的粗略标注数据集。
特点
EMER-Coarse数据集的主要特点是其大规模和粗略标注。该数据集包含115,595个样本,远超以往的数据集,足以支持监督训练。此外,数据集的构建过程中采用了开源模型,减少了对外部API的依赖,提高了数据集的可访问性和可扩展性。
使用方法
EMER-Coarse数据集主要用于训练多模态情感识别模型。研究者可以利用该数据集进行第一阶段的训练,学习多模态输入与情感相关描述之间的粗略映射。随后,可以使用精细标注的数据集(如EMER-Fine)进行第二阶段的训练,以进一步提高模型的准确性和可靠性。数据集的代码和样本已公开,便于后续研究者进行深入分析和应用。
背景与挑战
背景概述
在人机交互领域,情感识别是一项至关重要的研究课题。传统的情感识别方法通常依赖于固定的标签空间和有限的预测数量,这可能导致情感描述的不准确。为了解决这一问题,研究人员提出了可解释的多模态情感识别(EMER)任务,旨在通过多模态和多方面的线索,以开放词汇的方式预测情感,并提供预测的支持和证据。然而,由于高昂的标注成本,现有的数据集(如EMER-Fine)规模较小,难以支持监督训练。为此,中国科学院自动化研究所和清华大学等机构的研究人员于2024年创建了EMER-Coarse数据集,该数据集通过简化标注流程和使用开源模型,大幅降低了标注成本,并包含了大规模的样本,为EMER任务的研究提供了重要的数据支持。
当前挑战
EMER-Coarse数据集的构建面临多重挑战。首先,情感识别任务本身具有复杂性,情感的多样性和细微差别使得准确标注变得困难。其次,数据集的构建过程中,研究人员需要避免手动检查,转而依赖开源模型进行预标注、消歧和翻译,这要求开源模型在性能上接近甚至超越闭源模型。此外,尽管EMER-Coarse数据集规模较大,但其标注的粗略性可能导致数据质量的不稳定性,如何在保证数据规模的同时提高标注精度,是该数据集面临的另一大挑战。最后,如何有效地利用EMER-Coarse数据集进行模型训练,以实现情感识别任务的高效和准确,也是研究人员需要解决的关键问题。
常用场景
经典使用场景
EMER-Coarse数据集在多模态情感识别领域中被广泛用于训练和验证模型。其经典使用场景包括利用大规模的粗标签数据进行初步模型训练,随后通过精细标注的数据集进行微调,以提升情感识别的准确性和可靠性。这种两阶段的训练框架显著降低了标注成本,同时提高了模型的泛化能力。
衍生相关工作
基于EMER-Coarse数据集,研究人员开发了多种多模态情感识别模型和框架,如AffectGPT等。这些工作不仅提升了情感识别的准确性,还推动了多模态数据融合和处理技术的发展。此外,该数据集还激发了关于情感识别可解释性和透明度的研究,促进了情感识别技术在实际应用中的信任度和接受度。
数据集最近研究
最新研究方向
在人机交互领域,情感识别一直是研究的核心议题。近年来,随着多模态数据融合技术的进步,可解释的多模态情感识别(EMER)成为前沿研究方向。EMER-Coarse数据集的构建,通过简化标注流程和采用开源模型,显著降低了标注成本,并提供了大规模的样本数据,为深度学习模型的训练提供了坚实基础。研究者们提出的AffectGPT框架,通过两阶段训练策略,首先利用EMER-Coarse数据集进行粗略映射学习,然后使用精细标注的EMER-Fine数据集进行精确对齐,有效提升了情感识别的准确性和可靠性。这一研究不仅推动了情感识别技术的发展,也为多模态数据处理提供了新的思路和方法。
相关研究论文
- 1AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition中国科学院自动化研究所 · 2024年
以上内容由AI搜集并总结生成



