five

EMER-Coarse|情感识别数据集|人机交互数据集

收藏
arXiv2024-07-10 更新2024-07-11 收录
情感识别
人机交互
下载链接:
https://github.com/zeroQiaoba/AffectGPT
下载链接
链接失效反馈
资源简介:
EMER-Coarse数据集由中国科学院自动化研究所构建,专注于可解释的多模态情感识别任务。该数据集包含115,595个样本,基于MER2024-SEMI数据集,涵盖了大量以人为中心的视频。数据集的创建过程中,采用了简化的标注流程和开源模型,以降低人工检查和闭源模型的依赖。EMER-Coarse数据集主要用于提高情感识别的准确性和可靠性,特别是在人机交互领域的应用。
提供机构:
中国科学院自动化研究所
创建时间:
2024-07-10
原始信息汇总

EMER数据集

数据集构建

初始数据集

  • 来源:从MER 2023数据集中选取样本。
  • 下载方式:需填写EULA并发送到lianzheng2016@ia.ac.cn。

EMER-V1

  • 样本数量:100个非中性样本。
  • 详细信息:详见arXiv论文
  • 数据位置./EMER/dataset-v1

EMER-V2

  • 样本数量:332个样本。
  • 注释方法:使用GPT-4V进行初始注释,结合人工检查和ChatGPT的推理能力。
  • 详细信息:详见arXiv论文
  • 数据位置./EMER/dataset-v2

AffectGPT

  • 目标:训练一个音频-视频-文本对齐模型,用于可解释的多模态情感推理。
  • 实现:基于Video-LLaMA进行修改,支持音频-视频-文本对齐训练。
  • 代码位置./AffectGPT
  • 当前支持:仅提供使用EMER-V1数据集进行训练的代码。
  • 更多实验结果:详见arXiv论文
AI搜集汇总
数据集介绍
main_image_url
构建方式
EMER-Coarse数据集的构建基于MER2024-SEMI,该数据集包含115,595个以人为中心的视频。构建过程中,研究团队简化了标注流程,避免了手动检查,并使用开源模型替代了闭源模型。具体步骤包括预标注音频和视频线索、去歧义字幕以及翻译以获得双语描述。通过这些自动化步骤,大幅降低了标注成本,从而构建了一个大规模的粗略标注数据集。
特点
EMER-Coarse数据集的主要特点是其大规模和粗略标注。该数据集包含115,595个样本,远超以往的数据集,足以支持监督训练。此外,数据集的构建过程中采用了开源模型,减少了对外部API的依赖,提高了数据集的可访问性和可扩展性。
使用方法
EMER-Coarse数据集主要用于训练多模态情感识别模型。研究者可以利用该数据集进行第一阶段的训练,学习多模态输入与情感相关描述之间的粗略映射。随后,可以使用精细标注的数据集(如EMER-Fine)进行第二阶段的训练,以进一步提高模型的准确性和可靠性。数据集的代码和样本已公开,便于后续研究者进行深入分析和应用。
背景与挑战
背景概述
在人机交互领域,情感识别是一项至关重要的研究课题。传统的情感识别方法通常依赖于固定的标签空间和有限的预测数量,这可能导致情感描述的不准确。为了解决这一问题,研究人员提出了可解释的多模态情感识别(EMER)任务,旨在通过多模态和多方面的线索,以开放词汇的方式预测情感,并提供预测的支持和证据。然而,由于高昂的标注成本,现有的数据集(如EMER-Fine)规模较小,难以支持监督训练。为此,中国科学院自动化研究所和清华大学等机构的研究人员于2024年创建了EMER-Coarse数据集,该数据集通过简化标注流程和使用开源模型,大幅降低了标注成本,并包含了大规模的样本,为EMER任务的研究提供了重要的数据支持。
当前挑战
EMER-Coarse数据集的构建面临多重挑战。首先,情感识别任务本身具有复杂性,情感的多样性和细微差别使得准确标注变得困难。其次,数据集的构建过程中,研究人员需要避免手动检查,转而依赖开源模型进行预标注、消歧和翻译,这要求开源模型在性能上接近甚至超越闭源模型。此外,尽管EMER-Coarse数据集规模较大,但其标注的粗略性可能导致数据质量的不稳定性,如何在保证数据规模的同时提高标注精度,是该数据集面临的另一大挑战。最后,如何有效地利用EMER-Coarse数据集进行模型训练,以实现情感识别任务的高效和准确,也是研究人员需要解决的关键问题。
常用场景
经典使用场景
EMER-Coarse数据集在多模态情感识别领域中被广泛用于训练和验证模型。其经典使用场景包括利用大规模的粗标签数据进行初步模型训练,随后通过精细标注的数据集进行微调,以提升情感识别的准确性和可靠性。这种两阶段的训练框架显著降低了标注成本,同时提高了模型的泛化能力。
衍生相关工作
基于EMER-Coarse数据集,研究人员开发了多种多模态情感识别模型和框架,如AffectGPT等。这些工作不仅提升了情感识别的准确性,还推动了多模态数据融合和处理技术的发展。此外,该数据集还激发了关于情感识别可解释性和透明度的研究,促进了情感识别技术在实际应用中的信任度和接受度。
数据集最近研究
最新研究方向
在人机交互领域,情感识别一直是研究的核心议题。近年来,随着多模态数据融合技术的进步,可解释的多模态情感识别(EMER)成为前沿研究方向。EMER-Coarse数据集的构建,通过简化标注流程和采用开源模型,显著降低了标注成本,并提供了大规模的样本数据,为深度学习模型的训练提供了坚实基础。研究者们提出的AffectGPT框架,通过两阶段训练策略,首先利用EMER-Coarse数据集进行粗略映射学习,然后使用精细标注的EMER-Fine数据集进行精确对齐,有效提升了情感识别的准确性和可靠性。这一研究不仅推动了情感识别技术的发展,也为多模态数据处理提供了新的思路和方法。
相关研究论文
  • 1
    AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition中国科学院自动化研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录