EMER-Coarse

Name: EMER-Coarse
Creator: 中国科学院自动化研究所
Published: 2024-07-10 21:34:14
License: 暂无描述

arXiv2024-07-10 更新2024-07-11 收录

下载链接：

https://github.com/zeroQiaoba/AffectGPT

下载链接

链接失效反馈

官方服务：

资源简介：

EMER-Coarse数据集由中国科学院自动化研究所构建，专注于可解释的多模态情感识别任务。该数据集包含115,595个样本，基于MER2024-SEMI数据集，涵盖了大量以人为中心的视频。数据集的创建过程中，采用了简化的标注流程和开源模型，以降低人工检查和闭源模型的依赖。EMER-Coarse数据集主要用于提高情感识别的准确性和可靠性，特别是在人机交互领域的应用。

The EMER-Coarse dataset was constructed by the Institute of Automation, Chinese Academy of Sciences, focusing on interpretable multimodal emotion recognition tasks. Comprising 115,595 samples, this dataset is built upon the MER2024-SEMI dataset and covers a large number of human-centric videos. During the dataset construction process, a simplified annotation workflow and open-source models were adopted to reduce reliance on manual inspection and closed-source models. The EMER-Coarse dataset is primarily intended to improve the accuracy and reliability of emotion recognition, particularly for applications in the field of human-computer interaction.

提供机构：

中国科学院自动化研究所

创建时间：

2024-07-10

原始信息汇总

EMER数据集

数据集构建

初始数据集

来源：从MER 2023数据集中选取样本。
下载方式：需填写EULA并发送到lianzheng2016@ia.ac.cn。

EMER-V1

样本数量：100个非中性样本。
详细信息：详见arXiv论文。
数据位置：./EMER/dataset-v1。

EMER-V2

样本数量：332个样本。
注释方法：使用GPT-4V进行初始注释，结合人工检查和ChatGPT的推理能力。
详细信息：详见arXiv论文。
数据位置：./EMER/dataset-v2。

AffectGPT

目标：训练一个音频-视频-文本对齐模型，用于可解释的多模态情感推理。
实现：基于Video-LLaMA进行修改，支持音频-视频-文本对齐训练。
代码位置：./AffectGPT。
当前支持：仅提供使用EMER-V1数据集进行训练的代码。
更多实验结果：详见arXiv论文。

搜集汇总

数据集介绍

构建方式

EMER-Coarse数据集的构建基于MER2024-SEMI，该数据集包含115,595个以人为中心的视频。构建过程中，研究团队简化了标注流程，避免了手动检查，并使用开源模型替代了闭源模型。具体步骤包括预标注音频和视频线索、去歧义字幕以及翻译以获得双语描述。通过这些自动化步骤，大幅降低了标注成本，从而构建了一个大规模的粗略标注数据集。

特点

EMER-Coarse数据集的主要特点是其大规模和粗略标注。该数据集包含115,595个样本，远超以往的数据集，足以支持监督训练。此外，数据集的构建过程中采用了开源模型，减少了对外部API的依赖，提高了数据集的可访问性和可扩展性。

使用方法

EMER-Coarse数据集主要用于训练多模态情感识别模型。研究者可以利用该数据集进行第一阶段的训练，学习多模态输入与情感相关描述之间的粗略映射。随后，可以使用精细标注的数据集（如EMER-Fine）进行第二阶段的训练，以进一步提高模型的准确性和可靠性。数据集的代码和样本已公开，便于后续研究者进行深入分析和应用。

背景与挑战

背景概述

在人机交互领域，情感识别是一项至关重要的研究课题。传统的情感识别方法通常依赖于固定的标签空间和有限的预测数量，这可能导致情感描述的不准确。为了解决这一问题，研究人员提出了可解释的多模态情感识别（EMER）任务，旨在通过多模态和多方面的线索，以开放词汇的方式预测情感，并提供预测的支持和证据。然而，由于高昂的标注成本，现有的数据集（如EMER-Fine）规模较小，难以支持监督训练。为此，中国科学院自动化研究所和清华大学等机构的研究人员于2024年创建了EMER-Coarse数据集，该数据集通过简化标注流程和使用开源模型，大幅降低了标注成本，并包含了大规模的样本，为EMER任务的研究提供了重要的数据支持。

当前挑战

EMER-Coarse数据集的构建面临多重挑战。首先，情感识别任务本身具有复杂性，情感的多样性和细微差别使得准确标注变得困难。其次，数据集的构建过程中，研究人员需要避免手动检查，转而依赖开源模型进行预标注、消歧和翻译，这要求开源模型在性能上接近甚至超越闭源模型。此外，尽管EMER-Coarse数据集规模较大，但其标注的粗略性可能导致数据质量的不稳定性，如何在保证数据规模的同时提高标注精度，是该数据集面临的另一大挑战。最后，如何有效地利用EMER-Coarse数据集进行模型训练，以实现情感识别任务的高效和准确，也是研究人员需要解决的关键问题。

常用场景

经典使用场景

EMER-Coarse数据集在多模态情感识别领域中被广泛用于训练和验证模型。其经典使用场景包括利用大规模的粗标签数据进行初步模型训练，随后通过精细标注的数据集进行微调，以提升情感识别的准确性和可靠性。这种两阶段的训练框架显著降低了标注成本，同时提高了模型的泛化能力。

衍生相关工作

基于EMER-Coarse数据集，研究人员开发了多种多模态情感识别模型和框架，如AffectGPT等。这些工作不仅提升了情感识别的准确性，还推动了多模态数据融合和处理技术的发展。此外，该数据集还激发了关于情感识别可解释性和透明度的研究，促进了情感识别技术在实际应用中的信任度和接受度。

数据集最近研究