five

EMER-Coarse|情感识别数据集|人机交互数据集

收藏
arXiv2024-07-10 更新2024-07-11 收录
情感识别
人机交互
下载链接:
https://github.com/zeroQiaoba/AffectGPT
下载链接
链接失效反馈
资源简介:
EMER-Coarse数据集由中国科学院自动化研究所构建,专注于可解释的多模态情感识别任务。该数据集包含115,595个样本,基于MER2024-SEMI数据集,涵盖了大量以人为中心的视频。数据集的创建过程中,采用了简化的标注流程和开源模型,以降低人工检查和闭源模型的依赖。EMER-Coarse数据集主要用于提高情感识别的准确性和可靠性,特别是在人机交互领域的应用。
提供机构:
中国科学院自动化研究所
创建时间:
2024-07-10
原始信息汇总

EMER数据集

数据集构建

初始数据集

  • 来源:从MER 2023数据集中选取样本。
  • 下载方式:需填写EULA并发送到lianzheng2016@ia.ac.cn。

EMER-V1

  • 样本数量:100个非中性样本。
  • 详细信息:详见arXiv论文
  • 数据位置./EMER/dataset-v1

EMER-V2

  • 样本数量:332个样本。
  • 注释方法:使用GPT-4V进行初始注释,结合人工检查和ChatGPT的推理能力。
  • 详细信息:详见arXiv论文
  • 数据位置./EMER/dataset-v2

AffectGPT

  • 目标:训练一个音频-视频-文本对齐模型,用于可解释的多模态情感推理。
  • 实现:基于Video-LLaMA进行修改,支持音频-视频-文本对齐训练。
  • 代码位置./AffectGPT
  • 当前支持:仅提供使用EMER-V1数据集进行训练的代码。
  • 更多实验结果:详见arXiv论文
AI搜集汇总
数据集介绍
main_image_url
构建方式
EMER-Coarse数据集的构建基于MER2024-SEMI,该数据集包含115,595个以人为中心的视频。构建过程中,研究团队简化了标注流程,避免了手动检查,并使用开源模型替代了闭源模型。具体步骤包括预标注音频和视频线索、去歧义字幕以及翻译以获得双语描述。通过这些自动化步骤,大幅降低了标注成本,从而构建了一个大规模的粗略标注数据集。
特点
EMER-Coarse数据集的主要特点是其大规模和粗略标注。该数据集包含115,595个样本,远超以往的数据集,足以支持监督训练。此外,数据集的构建过程中采用了开源模型,减少了对外部API的依赖,提高了数据集的可访问性和可扩展性。
使用方法
EMER-Coarse数据集主要用于训练多模态情感识别模型。研究者可以利用该数据集进行第一阶段的训练,学习多模态输入与情感相关描述之间的粗略映射。随后,可以使用精细标注的数据集(如EMER-Fine)进行第二阶段的训练,以进一步提高模型的准确性和可靠性。数据集的代码和样本已公开,便于后续研究者进行深入分析和应用。
背景与挑战
背景概述
在人机交互领域,情感识别是一项至关重要的研究课题。传统的情感识别方法通常依赖于固定的标签空间和有限的预测数量,这可能导致情感描述的不准确。为了解决这一问题,研究人员提出了可解释的多模态情感识别(EMER)任务,旨在通过多模态和多方面的线索,以开放词汇的方式预测情感,并提供预测的支持和证据。然而,由于高昂的标注成本,现有的数据集(如EMER-Fine)规模较小,难以支持监督训练。为此,中国科学院自动化研究所和清华大学等机构的研究人员于2024年创建了EMER-Coarse数据集,该数据集通过简化标注流程和使用开源模型,大幅降低了标注成本,并包含了大规模的样本,为EMER任务的研究提供了重要的数据支持。
当前挑战
EMER-Coarse数据集的构建面临多重挑战。首先,情感识别任务本身具有复杂性,情感的多样性和细微差别使得准确标注变得困难。其次,数据集的构建过程中,研究人员需要避免手动检查,转而依赖开源模型进行预标注、消歧和翻译,这要求开源模型在性能上接近甚至超越闭源模型。此外,尽管EMER-Coarse数据集规模较大,但其标注的粗略性可能导致数据质量的不稳定性,如何在保证数据规模的同时提高标注精度,是该数据集面临的另一大挑战。最后,如何有效地利用EMER-Coarse数据集进行模型训练,以实现情感识别任务的高效和准确,也是研究人员需要解决的关键问题。
常用场景
经典使用场景
EMER-Coarse数据集在多模态情感识别领域中被广泛用于训练和验证模型。其经典使用场景包括利用大规模的粗标签数据进行初步模型训练,随后通过精细标注的数据集进行微调,以提升情感识别的准确性和可靠性。这种两阶段的训练框架显著降低了标注成本,同时提高了模型的泛化能力。
衍生相关工作
基于EMER-Coarse数据集,研究人员开发了多种多模态情感识别模型和框架,如AffectGPT等。这些工作不仅提升了情感识别的准确性,还推动了多模态数据融合和处理技术的发展。此外,该数据集还激发了关于情感识别可解释性和透明度的研究,促进了情感识别技术在实际应用中的信任度和接受度。
数据集最近研究
最新研究方向
在人机交互领域,情感识别一直是研究的核心议题。近年来,随着多模态数据融合技术的进步,可解释的多模态情感识别(EMER)成为前沿研究方向。EMER-Coarse数据集的构建,通过简化标注流程和采用开源模型,显著降低了标注成本,并提供了大规模的样本数据,为深度学习模型的训练提供了坚实基础。研究者们提出的AffectGPT框架,通过两阶段训练策略,首先利用EMER-Coarse数据集进行粗略映射学习,然后使用精细标注的EMER-Fine数据集进行精确对齐,有效提升了情感识别的准确性和可靠性。这一研究不仅推动了情感识别技术的发展,也为多模态数据处理提供了新的思路和方法。
相关研究论文
  • 1
    AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition中国科学院自动化研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录