DEEMO

Name: DEEMO
Creator: 拉彭兰塔-拉赫蒂工业大学 Lappeenranta-Lahti University of Technology LUT
Published: 2025-04-28 15:55:11
License: 暂无描述

arXiv2025-04-28 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.19549v1

下载链接

链接失效反馈

官方服务：

资源简介：

DEEMO数据集是一个旨在促进隐私保护的情感计算和责任AI研究的新任务，它包含了两个子集：DEEMO-NFBL和DEEMO-MER。DEEMO-NFBL包含了24,722个非面部身体语言（NFBL）标注，涵盖了37个类别；DEEMO-MER包含了2,060个视频，这些视频被标注了情感识别标签和推理指令。数据集采用了半自动的标注流程，结合了大型语言模型（LLM）和人工审核。DEEMO数据集支持在保护个人隐私的前提下进行情感识别和推理。

The DEEMO dataset is a novel task designed to advance privacy-preserving affective computing and responsible AI research. It consists of two subsets: DEEMO-NFBL and DEEMO-MER. DEEMO-NFBL contains 24,722 Non-Facial Body Language (NFBL) annotations spanning 37 categories. DEEMO-MER includes 2,060 videos annotated with emotion recognition labels and reasoning instructions. The dataset adopts a semi-automatic annotation pipeline that integrates Large Language Models (LLMs) and human review. The DEEMO dataset enables emotion recognition and reasoning while safeguarding personal privacy.

提供机构：

拉彭兰塔-拉赫蒂工业大学 Lappeenranta-Lahti University of Technology LUT

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

DEEMO数据集的构建采用了多模态数据收集与去标识化处理相结合的方法。研究团队从500个运动员赛后采访视频中提取素材，通过高斯模糊技术对视频中的人脸区域进行去标识化处理，同时采用McAdams系数调整语音频谱包络以实现音频去标识化。数据集构建采用半自动化流程，结合大型语言模型预标注与人工复核，确保标注质量。最终形成两个子集：包含24,722个非面部肢体语言标注的DEEMO-NFBL，以及包含2,060个视频片段情感标注与推理说明的DEEMO-MER。

特点

该数据集具有三个显著特征：隐私保护性、多模态融合性和细粒度标注。所有视频和音频均经过严格去标识化处理，消除面部和声纹特征；整合去标识化视频、音频及文字转录三种模态数据；特别包含37类非面部肢体语言的精细标注，以及结合语言学线索的情感推理说明。数据集在文化多样性方面表现突出，涵盖来自75个国家的207名受试者，性别分布均衡（女性81人/男性126人），平均视频时长7分钟，总时长19.99小时。

使用方法

使用DEEMO数据集时，研究者可通过多模态融合框架进行情感分析任务。建议采用DEEMO-LLaMA模型架构，该框架通过视觉编码器（ViT-G/14）、音频编码器（ImageBind）分别处理去标识化视频帧和音频片段，经Q-Former特征压缩后输入Vicuna-7B语言模型。对于情感识别任务，可评估Top-1准确率和F1分数；情感推理任务则采用GPT-4o评估线索重叠度（1-10）和标签重叠度（1-10）。使用前需注意不同子集的特性：DEEMO-NFBL适合肢体语言研究，DEEMO-MER适用于多模态情感推理。

背景与挑战

背景概述

DEEMO（De-identity Multimodal Emotion Recognition and Reasoning）数据集由Lappeenranta-Lahti University of Technology（LUT）等机构的研究团队于2025年提出，旨在解决情感计算领域中的隐私保护问题。传统的情感识别方法主要依赖面部表情和语音等身份敏感信息，这不仅引发了隐私担忧，也限制了在真实场景中的应用。DEEMO通过去身份化的视频和音频输入，结合非面部身体语言（NFBL）和音频转录线索，实现了隐私保护下的多模态情感识别与推理。该数据集包含两个子集：DEEMO-NFBL（包含24,722个NFBL标注）和DEEMO-MER（包含2,060个标注视频），为情感计算领域提供了首个专注于隐私保护的多模态基准。

当前挑战

DEEMO数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，传统情感识别依赖身份敏感信息（如面部表情和语音），而DEEMO需解决如何在去身份化条件下仍能准确捕捉情感线索的难题，尤其是非面部身体语言（NFBL）的细粒度标注与多模态融合。在构建过程中，挑战包括：1）去身份化技术的有效性，需确保视频和音频在模糊身份信息的同时保留情感特征；2）多模态数据（视频、音频、文本和NFBL）的标注一致性，需通过半自动化流程结合大型语言模型（LLM）与人工审核；3）数据多样性，需覆盖不同文化背景和性别以降低模型偏见。

常用场景

解决学术问题

该数据集有效解决了传统情感识别依赖身份敏感信息（如面部表情和原始语音）的学术瓶颈。通过去身份化处理和技术标注，DEEMO首次实现了在保护隐私前提下对37类NFBL行为的系统研究，为构建符合伦理的AI情感模型提供了数据基础。其实验证明，结合去标识音频、视频和文本的多模态方法，能使情感识别准确率达到74.49%，推动了隐私保护与情感计算效能的平衡研究。

衍生相关工作

该数据集催生了多项隐私保护情感计算的创新研究，如DEEMO-LLaMA框架通过融合去标识多模态特征，在情感推理任务中取得6.20的线索重叠度。相关衍生工作还包括基于NFBL的微表情识别系统iMiGUE的升级，以及AffectGPT等模型在医疗情绪监测领域的适配改造，共同推动了身份无关情感分析的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集