FERV39k

Name: FERV39k
Creator: 复旦大学工程与应用技术研究院
Published: 2022-03-20 17:43:16
License: 暂无描述

arXiv2022-03-20 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2203.09463v2

下载链接

链接失效反馈

官方服务：

资源简介：

FERV39k是一个大规模多场景的人脸表情识别视频数据集，由复旦大学工程与应用技术研究院和计算机科学学院联合创建。该数据集包含38,935个视频片段，每个片段标注了7种基本表情之一，涵盖了日常生活中的4种场景，细分成22个具体场景。数据集的创建过程包括从互联网上自动获取候选视频片段，并通过精心设计的工作流程进行手动标注，确保标签的高质量。FERV39k数据集的应用领域广泛，旨在解决视频中人脸表情识别的实际问题，特别是在复杂和多变的场景中。

FERV39k is a large-scale multi-scenario video dataset for facial expression recognition, jointly developed by the Institute of Engineering and Applied Technology and the School of Computer Science at Fudan University. This dataset contains 38,935 video clips, each annotated with one of seven basic facial expressions, covering four general daily scenarios and subdivided into 22 specific scenarios. The dataset construction process involves automatically acquiring candidate video clips from the Internet, followed by manual annotation via a meticulously designed workflow to ensure high annotation quality. The FERV39k dataset has wide-ranging application scenarios, aiming to address practical challenges in facial expression recognition from videos, especially in complex and variable scenarios.

提供机构：

复旦大学工程与应用技术研究院

创建时间：

2022-03-18

搜集汇总

数据集介绍

构建方式

FERV39k 数据集的构建经历了三个关键步骤：场景词汇和表情类别的选择、候选视频片段的生成以及数据标注。首先，数据集的构建者根据 Cowen 等人的研究成果，选择了 4 个场景类别，并将其细分为 22 个场景。同时，7 种经典表情被选为标注标签。其次，数据集构建者采用四阶段策略从 4K 个原始视频中自动生成 86K 个候选视频片段，并通过预训练的轻量级 ResNet-50 表情检测器进行筛选。最后，数据集构建者设计了一个两阶段标注流程，结合众包和专业标注，以确保高质量的数据标注。

特点

FERV39k 数据集具有以下特点：1）多场景：视频片段被分为 4 个场景类别，并细分为 22 个场景，具有不同的特点。2）大规模：视频片段数量达到 39K，时长从 0.5 秒到 4 秒不等，包含 1M 个分辨率为 336x504 和 224x224 的视频帧和裁剪后的面部图像。3）高质量：采用众包和专业标注的流程，确保高质量的数据标注。4）任务难度：FERV39k 数据集提出了四种挑战，包括表情持续时间的较大差异、不同场景中表情强度的不同、裁剪表情中标签表示的帧数有限以及不同场景和表情中的严重长尾分布。

使用方法

FERV39k 数据集可用于视频表情识别（DFER）研究，包括跨场景学习和应用导向的表情识别。数据集提供了 4 个场景类别，22 个场景和 7 种经典表情的标注视频片段。数据集可用于训练和评估 DFER 模型，并研究跨场景学习、场景推理和时空建模等挑战。数据集还提供了裁剪后的面部图像和场景图像，可用于上下文感知的 DFER 研究。

背景与挑战

背景概述

面部表情识别（FER）技术在静态图像和视频中的应用对于人机交互（HCI）和谎言检测等领域具有重要意义。随着用户上传的图片数量不断增加，静态FER的可用数据集已经相当丰富，例如RAF-DB和AffectNet。然而，针对视频FER的数据集却相对较少，且大多来自实验室环境，缺乏现实场景的复杂性。FERV39k数据集旨在填补这一空白，它由复旦大学工程与技术学院和计算机科学学院的研究团队于2021年构建。该数据集包含38,935个视频片段，涵盖了7种经典表情，并分布在4个场景类别（日常生活、弱交互表演、强交互活动和异常问题）下的22个场景中。FERV39k数据集的构建旨在解决现有视频FER数据集的局限性，例如样本数量有限、场景单一、缺乏对场景类别的考虑等。该数据集的创建为视频FER领域的研究提供了新的基准和挑战。

当前挑战

FERV39k数据集面临着几个关键挑战，包括：1) 7种基本表情类别的识别难度和混淆度；2) 4个场景类别之间的性能差异；3) 跨场景性能不理想；4) 表情和持续时间的长尾分布。为了解决这些挑战，研究团队采用了四阶段候选视频片段生成策略和两阶段标注流程，以平衡成本和质量控制。此外，研究团队还进行了消融研究，以系统地探索DFER模型中的关键组件，并发现了一些重要的发现，例如：1) 在大型数据集上进行预训练并不总是有益的；2) 更多的采样并不能稳步提高性能；3) 场景信息在DFER中起着补充作用。FERV39k数据集为视频FER领域的研究提供了新的基准和挑战，并为未来研究指明了新的方向。

常用场景

经典使用场景

FERV39k 数据集是一个大规模的多场景数据集，主要用于视频中的面部表情识别 (FER)。该数据集包含了 38,935 个视频片段，这些片段跨越了 22 个细粒度场景，并标注了 7 种经典表情。数据集被细分为 4 个场景类别：日常生活、弱交互节目、强交互活动和异常问题。这使得 FERV39k 成为研究和开发适用于真实世界场景的面部表情识别模型的重要资源。

衍生相关工作

FERV39k 数据集的发布促进了视频表情识别领域的研究和发展。基于 FERV39k 数据集，研究人员开发了许多新的面部表情识别模型和方法，并在不同场景中取得了显著的性能提升。此外，FERV39k 数据集还启发了其他相关领域的研究，例如跨域学习和场景理解。FERV39k 数据集的发布标志着视频表情识别领域的一个重要里程碑，并为未来的研究提供了宝贵的资源。

数据集最近研究