CelebA-Spoof
收藏arXiv2020-08-01 更新2024-06-21 收录
下载链接:
https://github.com/Davidzhangyuanhan/CelebA-Spoof
下载链接
链接失效反馈官方服务:
资源简介:
CelebA-Spoof是一个大规模的人脸反欺骗数据集,由北京交通大学和SenseTime Group Limited创建。该数据集包含10,177个主题的625,537张图片,显著大于现有数据集。数据集的多样性体现在8个场景(2个环境*4个照明条件)和超过10种传感器。此外,CelebA-Spoof还包含10种欺骗类型和40种属性标注,这些丰富的标注有助于从多个角度全面研究人脸反欺骗任务。数据集的应用领域主要集中在提高人脸交互系统的安全性和可靠性,解决现实中复杂欺骗攻击的识别问题。
CelebA-Spoof is a large-scale face anti-spoofing dataset developed by Beijing Jiaotong University and SenseTime Group Limited. It consists of 625,537 images from 10,177 unique subjects, making it considerably larger than existing face anti-spoofing datasets. The dataset exhibits high diversity, covering 8 scenarios (2 environments × 4 lighting conditions) and over 10 types of sensors. Additionally, CelebA-Spoof provides 10 spoofing types and 40 attribute annotations. These rich annotations support comprehensive investigations into face anti-spoofing tasks from multiple perspectives. The primary applications of this dataset lie in enhancing the security and reliability of face interaction systems, as well as addressing the recognition of complex spoofing attacks in real-world scenarios.
提供机构:
北京交通大学, 中国
创建时间:
2020-07-24
搜集汇总
数据集介绍

构建方式
在面部防伪领域,数据集的构建需兼顾规模与多样性。CelebA-Spoof的构建以CelebA数据集为基础,从中筛选出10,177名受试者的202,599张真实人脸图像作为活体样本。针对伪造样本,研究团队精心设计了多维度的采集策略:从五个拍摄角度、四种图像形状以及超过十种输入传感器(包括手机、平板和电脑摄像头)进行数据捕获。此外,伪造图像覆盖了八种不同场景,由两种环境(室内与室外)与四种光照条件组合而成。所有伪造图像均经过专业标注员细致标注,确保了数据的高质量与丰富性。
特点
CelebA-Spoof数据集在面部防伪研究中展现出显著优势。其规模空前,包含625,537张图像,远超同类数据集。多样性方面,数据集涵盖了超过十种输入传感器、八种采集场景以及十一种细分的伪造类型,有效模拟了现实世界中的复杂攻击。尤为突出的是其丰富的标注信息:每张图像均附有43种属性标签,包括从CelebA继承的40种人脸属性,以及专门标注的伪造类型、光照条件和环境信息。这种密集标注为多任务学习与模型可解释性研究提供了宝贵资源。
使用方法
该数据集为面部防伪研究提供了多层次的评估框架。研究者可将其用于模型训练与评估,数据集已按8:1:1的比例划分为训练集、验证集和测试集,且确保了受试者跨集合无重叠。基于其丰富的属性标注,可构建如AENet(辅助信息嵌入网络)等多任务学习框架,联合学习活体/伪造分类与语义属性预测。此外,数据集支持三种基准测试:内部数据集评估、跨域协议测试(如不同伪造介质或传感器间的泛化)以及跨数据集基准(如在CASIA-MFSD上的泛化性能),全面衡量模型的鲁棒性与泛化能力。
背景与挑战
背景概述
随着人脸交互系统的广泛应用,其安全性与可靠性成为关键议题,人脸防伪技术应运而生,旨在识别呈现的人脸是否为真实活体。然而,现有研究在处理复杂伪造攻击及泛化至真实场景时仍面临挑战,主要源于数据集的规模与多样性不足。为此,北京交通大学与商汤科技等机构于2020年联合推出了CelebA-Spoof数据集,包含10,177名受试者的625,537张图像,覆盖8种场景与超过10种传感器,并提供了丰富的语义标注,包括10种伪造类型与40种人脸属性。该数据集不仅显著提升了人脸防伪研究的基准,还通过多任务框架揭示了语义信息对模型性能的增强作用,推动了该领域向更鲁棒、泛化性更强的方向发展。
当前挑战
CelebA-Spoof数据集致力于解决人脸防伪领域中的核心挑战,即如何有效区分真实人脸与多种伪造攻击(如打印、重放、三维面具等),并在复杂光照、环境及传感器条件下保持高精度。其构建过程面临多重困难:首先,需确保数据的大规模与多样性,涉及从10,177名受试者中采集图像,并覆盖室内外环境、四种光照条件及多种设备传感器;其次,标注工作极为繁复,需对每张图像进行43种属性的精细标注,包括伪造类型、光照条件及人脸属性等,这对标注人员的专业性与一致性提出了极高要求;此外,数据平衡性亦需精心设计,以避免类别偏差影响模型训练。这些挑战共同塑造了数据集的复杂性与实用性。
常用场景
经典使用场景
在计算机视觉领域,人脸活体检测是保障生物识别系统安全的核心技术。CelebA-Spoof作为大规模、多属性标注的数据集,其经典使用场景在于为深度学习模型提供丰富的训练与验证数据。研究者利用该数据集涵盖的多种欺骗类型、光照条件和环境背景,构建鲁棒的活体检测算法,以应对现实世界中复杂多变的攻击手段。
解决学术问题
该数据集有效解决了人脸活体检测领域长期存在的三大难题:数据规模有限、多样性不足以及标注信息稀疏。通过提供超过62万张图像、10种欺骗类型及43种属性标注,CelebA-Spoof使研究者能够深入探索语义信息与几何信息在活体检测中的作用机制。其丰富的多任务标注体系,为研究辅助监督学习、跨域泛化等前沿问题提供了坚实基础。
衍生相关工作
围绕CelebA-Spoof数据集,学术界衍生出多项经典研究工作。最具代表性的是论文提出的辅助信息嵌入网络(AENet),该框架通过联合学习语义属性与几何信息,开创了多任务活体检测的新范式。后续研究在此基础上进一步探索了跨域泛化协议、零样本攻击检测等方向,推动了基于属性学习的活体检测方法体系发展,并催生了多个面向实际场景的基准测试标准。
以上内容由遇见数据集搜集并总结生成



