DEEMO
收藏arXiv2025-04-28 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.19549v1
下载链接
链接失效反馈官方服务:
资源简介:
DEEMO数据集是一个旨在促进隐私保护的情感计算和责任AI研究的新任务,它包含了两个子集:DEEMO-NFBL和DEEMO-MER。DEEMO-NFBL包含了24,722个非面部身体语言(NFBL)标注,涵盖了37个类别;DEEMO-MER包含了2,060个视频,这些视频被标注了情感识别标签和推理指令。数据集采用了半自动的标注流程,结合了大型语言模型(LLM)和人工审核。DEEMO数据集支持在保护个人隐私的前提下进行情感识别和推理。
The DEEMO dataset is a novel task designed to advance privacy-preserving affective computing and responsible AI research. It consists of two subsets: DEEMO-NFBL and DEEMO-MER. DEEMO-NFBL contains 24,722 Non-Facial Body Language (NFBL) annotations spanning 37 categories. DEEMO-MER includes 2,060 videos annotated with emotion recognition labels and reasoning instructions. The dataset adopts a semi-automatic annotation pipeline that integrates Large Language Models (LLMs) and human review. The DEEMO dataset enables emotion recognition and reasoning while safeguarding personal privacy.
提供机构:
拉彭兰塔-拉赫蒂工业大学 Lappeenranta-Lahti University of Technology LUT
创建时间:
2025-04-28
搜集汇总
数据集介绍

构建方式
DEEMO数据集的构建采用了多模态数据收集与去标识化处理相结合的方法。研究团队从500个运动员赛后采访视频中提取素材,通过高斯模糊技术对视频中的人脸区域进行去标识化处理,同时采用McAdams系数调整语音频谱包络以实现音频去标识化。数据集构建采用半自动化流程,结合大型语言模型预标注与人工复核,确保标注质量。最终形成两个子集:包含24,722个非面部肢体语言标注的DEEMO-NFBL,以及包含2,060个视频片段情感标注与推理说明的DEEMO-MER。
特点
该数据集具有三个显著特征:隐私保护性、多模态融合性和细粒度标注。所有视频和音频均经过严格去标识化处理,消除面部和声纹特征;整合去标识化视频、音频及文字转录三种模态数据;特别包含37类非面部肢体语言的精细标注,以及结合语言学线索的情感推理说明。数据集在文化多样性方面表现突出,涵盖来自75个国家的207名受试者,性别分布均衡(女性81人/男性126人),平均视频时长7分钟,总时长19.99小时。
使用方法
使用DEEMO数据集时,研究者可通过多模态融合框架进行情感分析任务。建议采用DEEMO-LLaMA模型架构,该框架通过视觉编码器(ViT-G/14)、音频编码器(ImageBind)分别处理去标识化视频帧和音频片段,经Q-Former特征压缩后输入Vicuna-7B语言模型。对于情感识别任务,可评估Top-1准确率和F1分数;情感推理任务则采用GPT-4o评估线索重叠度(1-10)和标签重叠度(1-10)。使用前需注意不同子集的特性:DEEMO-NFBL适合肢体语言研究,DEEMO-MER适用于多模态情感推理。
背景与挑战
背景概述
DEEMO(De-identity Multimodal Emotion Recognition and Reasoning)数据集由Lappeenranta-Lahti University of Technology(LUT)等机构的研究团队于2025年提出,旨在解决情感计算领域中的隐私保护问题。传统的情感识别方法主要依赖面部表情和语音等身份敏感信息,这不仅引发了隐私担忧,也限制了在真实场景中的应用。DEEMO通过去身份化的视频和音频输入,结合非面部身体语言(NFBL)和音频转录线索,实现了隐私保护下的多模态情感识别与推理。该数据集包含两个子集:DEEMO-NFBL(包含24,722个NFBL标注)和DEEMO-MER(包含2,060个标注视频),为情感计算领域提供了首个专注于隐私保护的多模态基准。
当前挑战
DEEMO数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,传统情感识别依赖身份敏感信息(如面部表情和语音),而DEEMO需解决如何在去身份化条件下仍能准确捕捉情感线索的难题,尤其是非面部身体语言(NFBL)的细粒度标注与多模态融合。在构建过程中,挑战包括:1)去身份化技术的有效性,需确保视频和音频在模糊身份信息的同时保留情感特征;2)多模态数据(视频、音频、文本和NFBL)的标注一致性,需通过半自动化流程结合大型语言模型(LLM)与人工审核;3)数据多样性,需覆盖不同文化背景和性别以降低模型偏见。
常用场景
解决学术问题
该数据集有效解决了传统情感识别依赖身份敏感信息(如面部表情和原始语音)的学术瓶颈。通过去身份化处理和技术标注,DEEMO首次实现了在保护隐私前提下对37类NFBL行为的系统研究,为构建符合伦理的AI情感模型提供了数据基础。其实验证明,结合去标识音频、视频和文本的多模态方法,能使情感识别准确率达到74.49%,推动了隐私保护与情感计算效能的平衡研究。
衍生相关工作
该数据集催生了多项隐私保护情感计算的创新研究,如DEEMO-LLaMA框架通过融合去标识多模态特征,在情感推理任务中取得6.20的线索重叠度。相关衍生工作还包括基于NFBL的微表情识别系统iMiGUE的升级,以及AffectGPT等模型在医疗情绪监测领域的适配改造,共同推动了身份无关情感分析的技术演进。
以上内容由遇见数据集搜集并总结生成



