MERL-RAV Dataset|人脸识别数据集|头部姿态分析数据集

github2024-05-10 更新2024-05-31 收录

人脸识别

头部姿态分析

下载链接：

https://github.com/abhi1kumar/MERL-RAV_dataset

下载链接

链接失效反馈

资源简介：

MERL-RAV数据集包含超过19,000张全范围头部姿态的人脸图像。每张人脸图像都由专业标注人员手动标注了68个地标点，并附有每个地标点是否为未遮挡、自遮挡或外部遮挡的信息。

The MERL-RAV dataset comprises over 19,000 facial images with full-range head poses. Each facial image has been manually annotated by professional annotators with 68 landmark points, accompanied by information indicating whether each landmark is unobstructed, self-occluded, or externally occluded.

创建时间：

2020-04-13

原始信息汇总

MERL-RAV Dataset 概述

数据集内容

规模: 包含超过19,000张人脸图像，覆盖全范围头部姿态。
标注: 每张人脸图像手动标注68个地标点，并提供每个地标点的可见性信息（未遮挡、自遮挡或外部遮挡）。
来源: 由专业标注员标注，并由三菱电机研究实验室（MERL）的研究人员监督。

数据集结构

文件夹结构:

├── merl_rav_labels │ ├── frontal │ │ ├── testset │ │ └── trainset │ ├── left │ │ ├── testset │ │ └── trainset │ ├── lefthalf │ │ ├── testset │ │ └── trainset │ ├── right │ │ ├── testset │ │ └── trainset │ └── righthalf │ ├── testset │ └── trainset ├── aflw │ └── flickr │ ├── 0 │ ├── 2 │ └── 3 ├── common_functions.py ├── organize_merl_rav_using_aflw_and_our_labels.py

标注文件格式

地标点标注: 遵循300-W和Multi-PIE数据集的68地标点标注方案。
标注内容: 每个地标点的坐标值根据其遮挡类型（未遮挡、外部遮挡、自遮挡）有所不同。
- 未遮挡: 正坐标值 (x, y)。
- 外部遮挡: 负坐标值 (-x, -y)，表示估计位置。
- 自遮挡: 坐标值 (-1, -1)，表示位置未估计。

使用指南

引用: 使用此数据集时，请引用相关CVPR论文。
组织数据: 使用提供的脚本 organize_merl_rav_using_aflw_and_our_labels.py 来组织数据集，确保标签文件与图像文件正确对应。

特殊情况处理

多张人脸图像: 当一张图像包含多个人脸时，标签和图像文件名会附加索引（如 _1, _2）以区分不同的人脸。

AI搜集汇总

数据集介绍

构建方式

MERL-RAV数据集是通过对AFLW数据集进行重新标注构建的，包含了超过19,000张面部图像，涵盖了各种头部姿态。每张图像都由专业标注员手动标注了68个关键点的真实位置，并额外标注了每个关键点的遮挡状态，包括未遮挡、自遮挡和外部遮挡。这些标注在三菱电机研究实验室（MERL）的研究人员监督下完成，确保了数据的高质量和准确性。

特点

该数据集的显著特点在于其详细的遮挡信息标注，每个关键点都被明确分类为未遮挡、外部遮挡或自遮挡，这对于面部关键点检测任务中的遮挡处理具有重要意义。此外，数据集涵盖了广泛的头部姿态，提供了丰富的多样性，有助于提升模型在不同场景下的鲁棒性。

使用方法

使用MERL-RAV数据集时，首先需要下载并解压数据集到项目目录中，然后按照指示下载AFLW数据集并将其放置在同一目录下。通过执行提供的Python脚本，可以将MERL-RAV的标注与AFLW的图像文件进行匹配和组织，生成一个包含图像和对应标注的结构化数据集。用户可以根据需要调整脚本中的路径设置，以便于后续的模型训练和测试。

背景与挑战

背景概述

MERL-RAV数据集是由三菱电机研究实验室（MERL）的研究人员重新标注的AFLW数据集，专注于面部特征点的精确定位与可见性分析。该数据集包含了超过19,000张面部图像，涵盖了各种头部姿态，每张图像均由专业标注人员手动标注了68个特征点的真实位置，并进一步细分为未遮挡、自遮挡和外部遮挡三种情况。这一数据集的创建旨在解决面部特征点定位中的不确定性问题，特别是在极端头部姿态和遮挡情况下的挑战。MERL-RAV数据集的发布为计算机视觉领域的面部对齐研究提供了宝贵的资源，尤其是在2020年CVPR会议上发表的相关研究中得到了广泛应用。

当前挑战

MERL-RAV数据集在构建过程中面临了多重挑战。首先，面部特征点在极端头部姿态下的自遮挡问题使得标注变得复杂，需要精确区分特征点的可见性与不可见性。其次，外部遮挡（如头发、眼镜等）的存在增加了特征点位置估计的难度，标注人员需在不确定的情况下进行合理推测。此外，数据集的规模庞大，确保每张图像的标注一致性和准确性是一项艰巨的任务。这些挑战不仅反映了面部特征点定位的复杂性，也凸显了在实际应用中处理遮挡和不确定性问题的迫切需求。

常用场景

经典使用场景

MERL-RAV数据集在人脸对齐领域中展现了其经典应用场景，尤其是在处理复杂头部姿态和不同遮挡情况下的面部特征点定位任务中。该数据集通过提供超过19,000张面部图像，每张图像均标注了68个关键点的精确位置，并详细记录了每个关键点的遮挡状态，包括未遮挡、自遮挡和外部遮挡。这使得研究人员能够开发和验证在极端头部姿态和复杂遮挡条件下的面部对齐算法。

解决学术问题

MERL-RAV数据集有效解决了面部对齐研究中长期存在的挑战，特别是在处理极端头部姿态和复杂遮挡情况下的关键点定位问题。通过提供详细的遮挡信息和精确的关键点标注，该数据集为研究者提供了一个标准化的测试平台，推动了面部对齐技术在不确定性和遮挡条件下的鲁棒性研究。这一贡献对于提升面部识别、表情分析等领域的技术水平具有重要意义。

衍生相关工作

基于MERL-RAV数据集，研究者们开发了多种面部对齐算法，其中最为著名的是LUVLi Face Alignment方法，该方法通过估计关键点的位置不确定性及可见性概率，显著提升了在复杂遮挡和极端姿态下的对齐精度。此外，该数据集还激发了大量关于遮挡感知和鲁棒性增强的研究，推动了面部对齐技术在计算机视觉领域的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录