DH-FaceEmoVid-150

Name: DH-FaceEmoVid-150
Creator: 浙江实验室, 理想汽车, 哈尔滨工业大学, 浙江大学, 中国科学院大学杭州高等研究院
Published: 2025-01-03 21:43:21
License: 暂无描述

arXiv2025-01-03 更新2025-01-07 收录

下载链接：

http://arxiv.org/abs/2501.01808v1

下载链接

链接失效反馈

官方服务：

资源简介：

DH-FaceEmoVid-150数据集是由浙江实验室、理想汽车、哈尔滨工业大学、浙江大学和中国科学院大学杭州高等研究院联合创建的高分辨率（1080p）视频数据集，专门用于人类面部情感表达的研究。该数据集包含150小时的视频内容，涵盖了六种基本情绪（愤怒、厌恶、恐惧、快乐、悲伤、惊讶）和四种复合情绪（愤怒厌恶、悲伤惊讶、悲伤恐惧、快乐惊讶）。数据集的创建过程包括从多种来源收集数据，并通过情感强度过滤、动作单元（AU）标签提取和文本指令生成等步骤进行优化。该数据集的应用领域主要集中在音频驱动的肖像动画生成，旨在解决现有模型在生成复杂情感和细微面部表情方面的局限性，推动情感控制技术的发展。

DH-FaceEmoVid-150 is a high-resolution (1080p) video dataset jointly created by Zhejiang Lab, Li Auto, Harbin Institute of Technology, Zhejiang University, and Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences, specifically for research on human facial emotional expressions. This dataset contains 150 hours of video content, covering six basic emotions (anger, disgust, fear, happiness, sadness, surprise) and four composite emotions (anger-disgust, sadness-surprise, sadness-fear, happiness-surprise). The creation process of the dataset includes collecting data from diverse sources, and optimizing it through steps such as emotional intensity filtering, action unit (AU) label extraction and text instruction generation. Its application fields mainly focus on audio-driven portrait animation generation, aiming to address the limitations of existing models in generating complex emotions and subtle facial expressions, and advance the development of emotion control technologies.

提供机构：

浙江实验室, 理想汽车, 哈尔滨工业大学, 浙江大学, 中国科学院大学杭州高等研究院

创建时间：

2025-01-03

搜集汇总

数据集介绍

构建方式

DH-FaceEmoVid-150数据集的构建过程基于对多种情感表达的精细捕捉与标注。研究者从多个来源收集了150小时的高清视频数据，涵盖了六种基本情绪（愤怒、厌恶、恐惧、快乐、悲伤、惊讶）以及四种复合情绪（愤怒-厌恶、悲伤-惊讶、悲伤-恐惧、快乐-惊讶）。为了确保数据质量，研究者通过情感强度筛选视频，并使用LibreFace进行情感识别，剔除模糊情感的视频。此外，数据集还通过提取面部动作单元（AU）标签，并结合GPT-4V生成细粒度的文本描述，进一步丰富了数据的多模态信息。

特点

DH-FaceEmoVid-150数据集以其高分辨率（1080p）和丰富的情感表达类别著称。该数据集不仅包含六种基本情绪，还引入了四种复合情绪，为情感驱动的模型提供了更广泛的训练潜力。每个视频均配备了多模态信息，如AU标签、文本描述和情感类别，使得数据集在情感表达的多样性和精细度上具有显著优势。此外，数据集的规模（150小时）和多样性（80名演员）也为模型的泛化能力提供了坚实基础。

使用方法

DH-FaceEmoVid-150数据集主要用于训练和评估情感驱动的肖像动画生成模型。研究者可以通过该数据集训练模型以生成具有复杂情感表达和细腻面部细节的动画。具体使用方法包括：首先，利用数据集中的基本情绪视频训练单一情感专家网络；其次，通过复合情绪视频训练门控网络，以合成复杂情感表达。此外，数据集的多模态信息（如AU标签和文本描述）可用于实现细粒度的情感控制。通过结合Mixture of Emotion Experts（MoEE）模型，研究者能够生成自然且生动的单一和复合情感表达。

背景与挑战

背景概述

DH-FaceEmoVid-150数据集由浙江大学、浙江实验室、理想汽车等机构的研究团队于2025年提出，旨在解决音频驱动肖像动画中的情感表达问题。该数据集包含150小时的高清视频，涵盖了六种基本情感（愤怒、厌恶、恐惧、快乐、悲伤、惊讶）和四种复合情感（愤怒-厌恶、悲伤-惊讶、悲伤-恐惧、快乐-惊讶）。通过引入多模态信息（如动作单元标签、文本描述和情感类别），DH-FaceEmoVid-150为情感驱动模型的训练提供了丰富的资源。该数据集的发布显著推动了情感驱动肖像动画领域的研究，特别是在复杂情感表达和面部细节生成方面。

当前挑战

DH-FaceEmoVid-150数据集在构建和应用过程中面临多重挑战。首先，情感表达的多样性和复杂性使得单一情感模型的构建变得困难，尤其是在复合情感生成方面，缺乏精确的框架来建模基本情感的组合。其次，数据集的构建需要捕捉大量高质量的情感表达视频，这对数据采集和标注提出了极高的要求。此外，如何将多模态信息（如音频、文本和标签）有效整合，以实现更灵活的情感控制，也是一个重要的技术挑战。最后，数据集的规模和质量直接影响模型的泛化能力，如何在有限的数据资源下提升模型的生成效果，是研究者需要持续探索的问题。

常用场景

经典使用场景

DH-FaceEmoVid-150数据集在音频驱动的肖像动画生成领域中具有广泛的应用。该数据集通过提供六种基本情绪和四种复合情绪的高质量视频内容，为模型训练提供了丰富的情绪表达数据。其经典使用场景包括生成具有复杂情绪和细微面部表情的虚拟人物动画，尤其是在需要精确同步音频与面部表情的应用中，如虚拟助手、远程通信和娱乐产业。

衍生相关工作

DH-FaceEmoVid-150数据集的发布催生了一系列相关研究工作。例如，基于该数据集开发的Mixture of Emotion Experts (MoEE)模型在音频驱动的肖像动画生成中取得了显著进展。此外，该数据集还启发了其他研究团队开发新的情绪控制模块和多模态输入对齐技术，进一步推动了情绪驱动模型的发展。这些衍生工作不仅提升了模型的生成质量，还为该领域的未来研究提供了新的方向。

数据集最近研究