UMDFaces

Name: UMDFaces
Creator: 马里兰大学帕克分校
Published: 2017-05-21 16:00:42
License: 暂无描述

arXiv2017-05-21 更新2024-06-21 收录

下载链接：

https://www.umdfaces.io

下载链接

链接失效反馈

官方服务：

资源简介：

UMDFaces是由马里兰大学帕克分校创建的一个大型人脸数据集，包含367,888个标注的人脸图像，涉及8,277个不同个体。该数据集通过人工标注和深度网络技术收集和标注，提供了高质量的人脸边界框、估计的姿态（滚动、俯仰和偏航）、21个关键点位置以及性别信息。此外，数据集中的关键点标注质量已通过人工验证。UMDFaces数据集适用于人脸识别、头部姿态估计和关键点定位等领域的研究，旨在推动人脸分析技术的进步和应用。

UMDFaces is a large-scale face dataset developed by the University of Maryland, College Park, which contains 367,888 annotated face images from 8,277 distinct individuals. Collected and annotated via both manual labeling and deep network technologies, this dataset provides high-quality face bounding boxes, estimated poses (roll, pitch, and yaw), 21 key point locations, as well as gender information. Additionally, the quality of the key point annotations in this dataset has been manually verified. The UMDFaces dataset is applicable to research in fields including face recognition, head pose estimation, and key point localization, with the goal of advancing the development and applications of face analysis technologies.

提供机构：

马里兰大学帕克分校

创建时间：

2016-11-05

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，大规模高质量数据集的构建是推动人脸识别技术发展的关键。UMDFaces数据集通过半自动化的流程精心构建，首先利用网络爬虫工具从多个搜索引擎收集图像，随后采用低阈值的人脸检测模型以确保高召回率。通过亚马逊众包平台进行人工标注，设计了一套基于权重投票的鲁棒算法来筛选和验证人脸边界框，有效去除了噪声数据。进一步利用预训练的多任务卷积神经网络生成关键点、姿态及性别等丰富注释，并对部分关键点进行了人工验证，最终通过基于特征相似度的清洗策略进一步提升了数据集的纯净度。

特点

UMDFaces数据集以其广泛的姿态多样性和丰富的注释信息脱颖而出，包含367,888张人脸图像，覆盖8,277个不同身份。与同类数据集相比，其在偏航角分布上展现出更广的覆盖范围，提供了更为均衡的每身份图像数量，避免了数据倾斜。数据集不仅提供经人工验证的人脸边界框，还包含二十一个关键点位置、三维头部姿态（偏航、俯仰、翻滚）及性别信息，这些多维度注释为训练鲁棒的人脸分析模型奠定了坚实基础。

使用方法

该数据集适用于人脸识别、关键点定位及头部姿态估计等多个研究任务。研究者可将数据集划分为互不重叠的训练集和测试集，利用其提供的严格评估协议进行模型验证。对于人脸验证任务，建议提取深度网络特征并采用余弦相似度进行比对，特别是在不同姿态差异的挑战性场景下评估模型性能。在关键点检测方面，可直接使用数据集提供的注释训练卷积神经网络，实现高精度的定位。数据集的多样性和大规模特性使其成为推动学术领域模型进步的宝贵资源。

背景与挑战

背景概述

在深度学习技术推动人脸识别研究快速发展的背景下，马里兰大学帕克分校的研究团队于2017年发布了UMDFaces数据集。该数据集旨在解决学术界因缺乏大规模、高质量公开人脸数据而面临的瓶颈问题，其核心研究聚焦于为深度神经网络训练提供丰富的多任务标注信息。UMDFaces共包含8,277个身份下的367,888张人脸图像，不仅提供了经人工验证的人脸边界框，还通过预训练模型生成了头部三维姿态、21个关键点坐标及性别信息，部分关键点标注经过了人工核验。该数据集的发布显著增强了人脸识别、姿态估计与关键点定位等任务的训练资源多样性，尤其在头部姿态分布的广度上超越了同期同类数据集，为相关领域的算法公平比较与性能突破奠定了重要基础。

当前挑战

UMDFaces数据集致力于解决人脸识别与多任务分析中的核心挑战，其首要难点在于如何在大规模非约束环境下实现高精度、细粒度的人脸身份验证与属性分析，特别是在头部姿态、光照及遮挡变化显著的情形下保持模型鲁棒性。在构建过程中，研究团队面临数据清洗与标注质量保障的双重困难：一方面，从互联网爬取的原始图像包含大量噪声，需设计高效的人机协同机制（如基于Amazon Mechanical Turk的众包标注与‘盐值’图像验证策略）以剔除错误身份与非人脸区域；另一方面，自动生成的姿态、关键点等标注虽借助先进的All-in-One CNN模型，仍需通过人工抽样验证来评估与确保其可靠性，这一过程涉及计算成本与标注一致性的平衡。此外，构建一个兼具‘宽度’（更多身份）与标注多样性的公开数据集，还需克服数据版权、隐私伦理以及学术与工业界数据资源不均衡的宏观挑战。

常用场景

经典使用场景

在计算机视觉领域，人脸识别与关键点检测的研究常受限于高质量大规模数据集的稀缺。UMDFaces数据集以其丰富的标注信息，包括人脸边界框、21个关键点位置、三维姿态及性别标签，成为训练深度神经网络进行人脸分析的经典资源。该数据集通过提供超过36万张人脸图像和8千余个身份，为模型在复杂姿态和表情变化下的鲁棒性评估奠定了坚实基础。

实际应用

在实际应用中，UMDFaces数据集为安防监控、智能交互及生物识别等领域的技术开发提供了关键训练素材。基于该数据集训练的模型能够适应真实场景中的人脸姿态变化、遮挡及光照差异，显著提升了人脸识别系统在移动设备、门禁系统和社交媒体平台中的准确性与稳定性。其提供的三维姿态信息进一步促进了虚拟现实和增强现实应用中的人脸跟踪与动画生成。

衍生相关工作

UMDFaces数据集的发布催生了一系列经典研究工作，特别是在多任务人脸分析模型的演进中发挥了重要作用。基于该数据集的关键点标注，研究者开发了更高效的姿态不变人脸识别算法；同时，其验证协议被广泛采纳为评估模型鲁棒性的新标准。相关成果进一步推动了如HyperFace等多任务学习框架的发展，并为后续大规模数据集（如MegaFace）的构建提供了数据清洗与标注方法的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集