合成掩码技术生成的数据集

Name: 合成掩码技术生成的数据集
Creator: 墨尔本大学
Published: 2021-06-10 16:58:10
License: 暂无描述

arXiv2021-06-10 更新2024-06-21 收录

下载链接：

https://github.com/sachith500/ContrastiveFaceRepresentation

下载链接

链接失效反馈

官方服务：

资源简介：

本研究利用合成掩码技术，对现有的面部数据库如CelebA、LFW等进行改造，生成新的数据集用于掩码面部识别的研究。数据集包含多种面部图像，包括带掩码和不带掩码的图像，旨在解决传统面部识别系统在面对掩码面部时的识别问题。创建过程中，研究者使用了面部关键点预测和合成掩码形状生成技术，确保数据集的质量和适用性。该数据集的应用领域主要集中在提升面部识别系统在实际环境中的鲁棒性，特别是在全球疫情背景下，对于需要验证身份但面部被掩码遮挡的场景。

This study utilizes synthetic masking technology to modify existing facial databases including CelebA and LFW, thereby generating a new dataset for masked facial recognition research. The dataset encompasses diverse facial images, both with and without facial masks, aiming to resolve the recognition failures of traditional facial recognition systems when encountering masked faces. During the dataset development process, researchers adopted facial keypoint prediction and synthetic mask shape generation technologies to guarantee the dataset's quality and applicability. The main application of this dataset lies in improving the robustness of facial recognition systems in real-world environments, especially in scenarios requiring identity verification where faces are occluded by masks amid the global pandemic.

提供机构：

墨尔本大学

创建时间：

2021-06-10

搜集汇总

数据集介绍

构建方式

在新冠疫情背景下，人脸识别系统因口罩遮挡面临严峻挑战，为此，该数据集通过合成掩码技术构建而成。具体而言，研究团队首先利用人脸检测器定位面部边界框，随后提取68个关键点，并基于选定关键点生成凸包以绘制数字化口罩形状。该流程应用于CelebA、LFW、YouTube Faces等多个公开人脸数据库，生成配对的有口罩与无口罩图像。此外，为验证模型的泛化能力，还通过志愿者采集了包含真实口罩佩戴场景的小规模室内外数据集，涵盖不同光照、口罩类型与拍摄设备。所有合成步骤均开源，确保可复现性。

使用方法

该数据集专为有口罩与无口罩人脸匹配任务设计，使用方法清晰明确。研究人员可采用孪生网络架构，以成对图像（一张无口罩参考图像与一张有口罩探测图像）作为输入，通过共享权重的特征提取器计算嵌入向量间的L2距离，并经由全连接层与Sigmoid激活输出相似度分数（0表示冒名顶替者，1表示真实匹配）。训练时采用二元交叉熵损失，并建议先利用对比表示学习（如MoCoV2）预训练初始特征，再在多数据集上微调以提升泛化能力。评估时，可通过FAR/FRR曲线、等错误率（EER）及FRR100等指标量化性能。所有代码、预训练权重与评估列表均已开源，便于复现与基准比较。

背景与挑战

背景概述

新冠疫情在全球范围内引发了前所未有的公共卫生应对措施，佩戴口罩成为阻断病毒传播的关键手段之一。这一变化对基于全脸特征的传统人脸识别系统构成了严峻挑战，因为口罩遮挡了鼻子、嘴巴、下巴等关键面部器官，导致身份验证、访问控制及监控系统的性能急剧下降。在此背景下，Sachith Seneviratne等来自墨尔本大学、莫拉图瓦大学及新加坡国立大学的研究人员，于2021年提出了一个合成掩码技术生成的数据集。该数据集的核心研究问题聚焦于如何实现无遮挡参考图像与佩戴口罩探针图像之间的准确身份匹配，这一场景在护照、驾照等官方证件验证中具有极高的现实需求。通过合成掩码生成技术，研究团队对CelebA、LFW等多个公开人脸数据集进行了重标注，并构建了跨数据集的基准测试框架。该工作不仅提出了基于对比表示学习的预训练流程，还开源了合成掩码生成代码和训练权重，为面部识别系统在疫情常态化下的适应性研究提供了关键资源，对推动遮挡人脸识别领域的发展具有重要影响力。

当前挑战

该数据集所解决的领域问题面临多方面的挑战。首先，在技术层面，传统人脸识别模型高度依赖完整面部特征的提取，口罩造成的局部遮挡导致特征表示失效，尤其是嘴唇、下巴等判别性区域的缺失极易引发误识别，使得真实用户被错误归类为冒名顶替者。其次，现有研究多聚焦于口罩对口罩的匹配场景，而实际应用需求更迫切的是无遮挡参考图像与口罩图像的跨域匹配，这要求模型具备对遮挡区域的不变性特征学习能力。在数据集构建过程中，合成掩码生成技术面临真实性与多样性的平衡难题：数字掩码的颜色、纹理、佩戴方式与真实口罩存在差异，可能引入域偏移；同时，不同数据集在光照、姿态、图像质量上的巨大差异，使得模型在跨数据集泛化时表现不稳定。此外，研究人员在收集真实验证数据集时，需应对志愿者自拍带来的复杂环境变化，包括室内外光照、不同口罩类型及摄像头质量等，进一步增加了构建鲁棒基准的难度。

常用场景

经典使用场景

该数据集通过合成掩码技术，将公开人脸数据集中的无遮挡图像转换为佩戴口罩的版本，从而构建大规模、多样化的掩码人脸识别基准。其经典使用场景聚焦于无掩码参考图像与掩码探针图像之间的身份匹配，例如在机场安检或边境检查中，将护照、身份证等证件上的无掩码照片与现场采集的佩戴口罩者进行比对，以验证身份真实性。这一场景精准回应了后疫情时代人脸识别系统面临的现实挑战，为评估和提升模型在局部遮挡条件下的鲁棒性提供了标准化测试平台。

解决学术问题

该数据集系统性地解决了掩码人脸识别中无掩码到掩码匹配这一特殊但关键的学术难题。传统人脸识别模型依赖全脸特征，而口罩遮挡导致鼻、嘴、下巴等判别性区域缺失，引发严重的假阴性错误。该工作通过对比表示学习与多数据集联合训练，显著降低了等错误率，并验证了从头训练对比表示比微调现有面部特征更有效。研究揭示了现有预训练模型在遮挡条件下特征解耦不足的局限，推动了面向部分遮挡的身份识别理论发展，并为遮挡图像领域的一般性基准测试方法提供了可复现的范本。

实际应用

在实际应用中，该数据集支持开发能够兼容现有身份凭证体系的掩码人脸识别系统。机场、政府大楼、医疗机构等高安全需求场所，可将其用于部署无需摘口罩即可完成身份验证的通行控制方案。此外，该数据集训练的模型可集成至监控系统，实现公共场所中佩戴口罩人员的身份确认，在保障公共卫生安全的同时维持安全监控的连续性。其合成掩码技术还降低了真实掩码数据采集成本，便于企业快速迭代产品，推动人脸识别技术在疫情防控常态化背景下的无障碍落地。

数据集最近研究