FERV39k

arXiv2025-09-30 收录

下载链接：

https://github.com/wangyanckxx/ferv39k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于动态面部表情识别的又一大型野外数据集，它包含了可用于评估用户平均准确率（UAR）和加权平均准确率（WAR）指标的相关信息。

This dataset is yet another large-scale in-the-wild dataset for dynamic facial expression recognition. It contains relevant information that can be used to evaluate the User Average Accuracy (UAR) and Weighted Average Accuracy (WAR) metrics.

搜集汇总

数据集介绍

构建方式

在动态面部表情识别领域，构建高质量视频数据集面临诸多挑战。FERV39k的构建遵循一套严谨的三步流程：首先，基于现有研究定义了涵盖日常生活、弱互动表演、强互动活动及异常事件四大场景的22个细粒度场景词汇表，并选定愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性七种基本表情类别。其次，从多个开放视频平台收集超过4000条原始视频，通过四阶段策略自动生成候选视频片段：包括基于关键词的元数据下载、随机时间分割、基于规则的单人脸片段筛选，以及利用预训练的轻量级ResNet-50表情检测器进行精炼，最终从8.6万个候选片段中筛选出目标规模的片段。最后，采用众包标注与专业审核相结合的两阶段标注工作流，通过预设检查、错误统计、专业判断及加权投票机制，确保了约3.9万个视频片段标签的高质量与可靠性。

特点

FERV39k数据集展现出若干鲜明特征，使其在现有视频表情识别数据集中脱颖而出。其核心在于多层次场景划分，将数据组织为4个独立场景及下属22个细粒度场景，为面向应用的跨场景鲁棒性研究提供了结构化基础。数据规模宏大，包含近3.9万个时长0.5至4秒的视频片段，衍生出百万量级的视频帧及裁剪后的人脸图像。数据质量通过精心设计的标注流程得以保障，结合了众包的效率与专业审核的准确性。此外，数据集呈现出真实世界固有的挑战性，例如不同场景中表情强度的显著差异、视频片段内有效表情帧的有限性、以及跨场景与跨表情类别的严重长尾分布，这些特性共同构成了对现有动态表情识别方法的全新考验。

使用方法

为充分发挥FERV39k的科研价值，研究者可遵循其设定的基准协议进行模型开发与评估。数据集已按场景随机划分为训练集（含验证集）与测试集，支持22个单场景、4个大场景及全场景共27种实验配置，并允许进行跨场景学习研究。数据提供了224×224分辨率的裁剪人脸图像及336×504分辨率的场景图像，以满足结合上下文信息的识别方法需求。在模型训练方面，论文基准测试了四类主流架构：2D卷积网络、2D卷积网络结合LSTM、3D卷积网络以及双流网络，为后续研究提供了性能参照。实践表明，由于数据内在的复杂性与多样性，直接应用大规模数据集预训练或简单增加采样帧数未必能稳定提升性能，而有效融合场景信息则被证明对识别任务具有互补作用。

背景与挑战

背景概述

FERV39k数据集由复旦大学工程与技术研究院及计算机科学技术学院的研究团队于2021年构建，旨在填补视频面部表情识别领域大规模多场景数据集的空白。该数据集聚焦于动态面部表情识别，核心研究问题在于评估现有方法在真实世界应用导向场景中的性能表现。通过涵盖日常生活、弱互动表演、强互动活动及异常事件四大场景下的22个细分子场景，FERV39k提供了38,935个标注七种基本表情的视频片段，显著推动了跨场景表情识别模型的发展，并为实际应用如人机交互与情感计算提供了关键数据支撑。

当前挑战

FERV39k数据集所解决的领域问题在于视频面部表情识别，其挑战主要体现在多场景下表情的复杂性与多样性。具体而言，数据集中不同场景间表情强度与特征分布存在显著差异，例如“恐惧”在恐怖场景中更为突出，而“快乐”在直播场景中表现更为明显，导致模型跨场景泛化能力受限，平均性能下降约8%。构建过程中的挑战则集中于大规模候选视频片段的自动生成与高质量标注。研究团队设计四阶段策略从原始视频中自动筛选片段，并采用两阶段众包与专业审核相结合的标注流程，以应对表情细微差异辨识与标注成本控制的平衡难题，最终确保了数据集的规模与可靠性。

常用场景

经典使用场景

在动态面部表情识别领域，FERV39k数据集凭借其大规模多场景特性，为研究者提供了评估模型在真实世界复杂环境中表现的关键平台。该数据集涵盖了日常生活、弱互动节目、强互动活动及异常事件四大场景，细分为22个子场景，包含近39,000个标注了七种基本表情的视频片段。其经典使用场景在于推动跨场景表情识别研究，通过模拟现实应用中表情强度的变化与场景依赖性，为算法在多样化环境下的鲁棒性验证奠定基础。

衍生相关工作

围绕FERV39k数据集，学术界衍生了一系列经典研究工作，主要集中在多模态融合与跨场景自适应学习方向。例如，基于双流网络架构的改进方法，通过融合面部区域与场景上下文信息，显著提升了在复杂场景下的识别精度。同时，针对数据集中存在的长尾分布问题，研究者提出了动态采样与关键帧提取策略，以优化时间建模效率。这些工作不仅推动了动态表情识别算法的演进，也为视频理解领域的时空特征学习提供了新的思路。

数据集最近研究