Wild Face Anti-Spoofing (WFAS) Dataset

Name: Wild Face Anti-Spoofing (WFAS) Dataset
Creator: 中国科学院自动化研究所
Published: 2023-05-05 09:28:33
License: 暂无描述

arXiv2023-05-05 更新2024-06-21 收录

下载链接：

https://github.com/deepinsight/insightface/tree/master/challenges/cvpr23fas-wild

下载链接

链接失效反馈

官方服务：

资源简介：

WFAS数据集是由中国科学院自动化研究所创建的大规模、多样化的面部反欺骗数据集，旨在解决现有数据集在数量和多样性上的不足。该数据集包含853,729张图像，其中321,751张为欺骗性面部图像，529,571张为真实面部图像。数据集的欺骗性数据来源于互联网，覆盖了广泛的场景和多种商业传感器，包括17种呈现攻击（PAs），涵盖2D和3D形式。创建过程强调了数据的多样性和真实性，适用于面部反欺骗技术的研究和开发，特别是在处理真实世界场景中的欺骗攻击时。

The WFAS dataset is a large-scale, diverse facial anti-spoofing dataset created by the Institute of Automation, Chinese Academy of Sciences, which aims to address the shortcomings of existing datasets in terms of both quantity and diversity. It comprises a total of 853,729 images, with 321,751 being deceptive facial images and 529,571 being genuine facial images. The spoofing samples in the dataset are sourced from the Internet, covering a wide range of scenarios and multiple commercial sensors, and include 17 types of presentation attacks (PAs) spanning both 2D and 3D formats. The dataset development process prioritizes data diversity and authenticity, making it suitable for research and development of facial anti-spoofing technologies, particularly for handling spoofing attacks in real-world scenarios.

提供机构：

中国科学院自动化研究所

创建时间：

2023-04-12

搜集汇总

数据集介绍

构建方式

在面部防伪研究领域，数据集的构建方式直接影响模型的泛化能力。Wild Face Anti-Spoofing (WFAS) 数据集采用了一种创新的数据采集策略，其活体样本来源于互联网上遵循特定知识共享许可协议的图像，涵盖了多样化的场景、种族与年龄分布，并通过RetinaFace与ArcFace技术进行人脸检测与聚类，最终整合了148,169位活体对象的529,571张图像。欺骗样本则全部从互联网公开资源中获取，覆盖了17种呈现攻击类型，包括二维打印与显示攻击以及三维模型攻击，所有样本均通过手机、数码相机等商用传感器采集，极大丰富了数据的真实性与场景多样性。

特点

WFAS数据集在规模与多样性方面实现了显著突破，其核心特点体现在海量的样本数量与广泛的攻击类型覆盖。该数据集共包含1,383,300张图像，涉及469,920个对象，其中欺骗样本涵盖321,751个对象，活体样本涵盖148,169个对象，远超现有同类数据集。在攻击类型上，数据集囊括了从报纸、海报、相册等二维打印攻击，到手机、平板、电视等二维显示攻击，以及面具、手办、玩偶、蜡像等多种三维攻击，共计17种细分类别，且所有样本均采集自非受控的真实环境，有效提升了数据分布的复杂性与现实代表性。

使用方法

为促进面部防伪算法的公平评估与深入研究，WFAS数据集提供了两种标准评测协议。已知类型协议将所有攻击类型同时用于训练、验证与测试阶段，模拟了现实应用中攻击类型已知的全局场景。未知类型协议则采用更具挑战性的设计，训练与验证阶段仅使用二维攻击样本，而测试阶段引入三维攻击样本，旨在检验算法对未知攻击类型的泛化能力。数据集按约4:1:5的比例划分为训练、验证与测试子集，且确保同一攻击类型不出现在同一子集中，以考察算法在轻微域偏移下的鲁棒性，并采用ACER、APCER、BPCER等标准化指标进行性能评估。

背景与挑战

背景概述

随着人脸识别技术在门禁、支付等场景的广泛应用，其安全性问题日益凸显，尤其是针对呈现攻击的防御需求催生了人脸活体检测领域。然而，现有公开数据集在规模与多样性上的局限，制约了相关算法的泛化能力。为此，由MoreDian、InsightFace、CASIA等机构的研究团队于2023年联合构建了Wild Face Anti-Spoofing数据集，旨在通过大规模、无约束环境下的数据采集，推动活体检测技术向真实世界场景迁移。该数据集包含超过138万张图像，涵盖32万余个欺骗主体与14万余个真实主体，并集成17种二维与三维呈现攻击类型，显著提升了数据的数量与场景多样性，为人脸活体检测研究提供了关键基准。

当前挑战

在活体检测领域，核心挑战在于模型对未知攻击类型与复杂真实场景的泛化能力。现有方法常因训练数据同质化而过度拟合，难以应对不断演变的欺骗手段，如高保真三维面具或新型显示攻击。数据构建过程中，研究者需克服无约束环境下数据采集的困难：网络来源的欺骗样本需经过精细筛选与标注，以确保其符合呈现攻击特征；同时，保持真实与欺骗样本在种族、年龄、光照及传感器类型上的多样性，避免引入隐性偏差。此外，数据规模的急剧扩张也带来了存储、处理与质量控制的工程挑战。

常用场景

经典使用场景

在计算机视觉与生物识别安全领域，Wild Face Anti-Spoofing (WFAS) 数据集作为首个大规模、非受控环境下的面部反欺诈基准，其经典使用场景聚焦于评估和提升深度学习模型在真实世界中的泛化能力。该数据集通过包含来自互联网的多样化欺骗样本，如印刷品、屏幕显示及三维模型攻击，模拟了复杂多变的实际攻击情境，为研究者提供了检验算法鲁棒性的关键平台。在CVPR2023研讨会上举办的Wild Face Anti-Spoofing挑战赛，正是利用该数据集推动前沿方法在已知与未知攻击类型协议下的性能竞赛，促进了面部反欺诈技术的迭代与创新。

实际应用

在实际应用层面，WFAS数据集为提升人脸识别系统的安全防护提供了关键支撑。其涵盖的多样化攻击场景，如手机解锁、门禁控制、数字支付等系统中可能遭遇的印刷照片、屏幕重放或三维面具攻击，直接对应现实世界中的安全威胁。通过在该数据集上训练的模型，能够更准确地识别复杂环境下的欺诈行为，增强系统对新兴攻击手段的抵御能力。此外，数据集采用的互联网采集策略降低了数据构建成本，为工业界快速部署适应性强的反欺诈解决方案提供了可行路径，助力金融、安防、消费电子等领域构建可靠的身份验证机制。

衍生相关工作

WFAS数据集的发布催生了一系列相关经典工作，尤其在模型架构与学习范式上激发了新的探索。基于该数据集举办的CVPR2023挑战赛中，获胜方案如中国电信、美团等团队采用的Transformer架构与自监督学习策略，展示了视觉Transformer在面部反欺诈任务中的潜力。这些工作推动了生成式像素级监督方法的演进，如通过欺骗噪声建模或视觉线索解耦来增强模型可解释性。同时，数据集的未知类型协议促进了零样本或小样本泛化方法的研究，引导学界关注跨攻击类型的特征学习。这些衍生工作共同深化了对面部反欺诈本质的理解，并为后续大规模非受控数据应用奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集