FaceShield-pre10K, FaceShield-sft45K

Name: FaceShield-pre10K, FaceShield-sft45K
Creator: Shijiazhuang Tiedao University, Shanghai Jiao Tong University, UCLA, GRGBanking, Great Bay University, Macao Polytechnic University, Shenzhen Campus of Sun Yat-sen University
Published: 2025-05-14 22:10:43
License: 暂无描述

arXiv2025-05-14 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.09415v1

下载链接

链接失效反馈

官方服务：

资源简介：

FaceShield数据集是一组为面部反欺骗任务量身定制的多模态大型语言模型（MLLM）的预训练和监督微调（SFT）数据集。该数据集由多轮对话和图像组成，涵盖了12种不同的攻击类型，旨在帮助MLLM在面部识别系统中识别欺骗行为。数据集包括预训练数据集FaceShield-pre10K和监督微调数据集FaceShield-sft45K，这两个数据集均由基于预先定义的提示的多轮对话生成。FaceShield数据集旨在解决面部识别系统中的欺骗攻击问题，如打印、重放和3D可穿戴面具等，以提高系统的准确性和可靠性。

The FaceShield dataset is a pre-training and supervised fine-tuning (SFT) dataset suite tailored for facial anti-spoofing tasks for multimodal large language models (MLLMs). Comprising multi-turn dialogues and images, this dataset covers 12 distinct attack types, with the goal of helping MLLMs identify spoofing behaviors in facial recognition systems. The dataset includes two subsets: the pre-training dataset FaceShield-pre10K and the supervised fine-tuning dataset FaceShield-sft45K, both of which are generated via multi-turn dialogues based on pre-defined prompts. The FaceShield dataset is intended to resolve spoofing attack issues in facial recognition systems, such as printing, replay attacks, and 3D wearable masks, to enhance the accuracy and reliability of these systems.

提供机构：

Shijiazhuang Tiedao University, Shanghai Jiao Tong University, UCLA, GRGBanking, Great Bay University, Macao Polytechnic University, Shenzhen Campus of Sun Yat-sen University

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

FaceShield-pre10K和FaceShield-sft45K数据集的构建采用了多模态大语言模型（MLLM）辅助的流水线方法。首先，基于WMCA、PADISI和SiW-Mv2三个原始数据集，整合了12种不同类型的攻击样本，包括真实人脸和多种欺骗攻击类型。随后，通过Bunny-Llama-3-8B-V模型生成预训练和微调数据集。预训练数据集（FaceShield-pre10K）通过CLIP相似度过滤低质量图像-文本对，而微调数据集（FaceShield-sft45K）则经过多级过滤（包括LLM过滤、关键词过滤和人工审核）和数据增强，最终形成包含粗粒度分类、细粒度分类、推理和定位四类任务的指令数据集。

特点

FaceShield数据集具有多任务、多模态和高泛化性的特点。数据集覆盖了12种欺骗攻击类型，包括打印攻击、重放攻击和3D面具攻击等，并提供了图像级别的粗粒度分类、细粒度分类、推理解释以及区域级别的定位标注。其多模态特性体现在结合了原始RGB图像和基于先验知识的辅助模态（如LBP、Gray和HOG特征）。此外，数据集通过Prompt-guided Vision Token Masking（PVTM）策略增强了模型对混淆区域的判别能力，显著提升了跨域泛化性能。

使用方法

该数据集支持两阶段训练范式：预训练阶段使用FaceShield-pre10K对齐视觉与文本嵌入，微调阶段使用FaceShield-sft45K进行多任务指令微调。具体任务包括：1）粗粒度分类（真实/欺骗判断）；2）细粒度分类（识别具体攻击类型）；3）基于光照、对称性等特征的可解释推理；4）攻击区域的边界框定位。使用时需加载Spoof-Aware Vision Perception（SAVP）模块处理多模态输入，并配合PVTM模块实现关键视觉令牌的动态掩码。实验表明，该数据集训练的模型在跨域测试中HTER指标显著优于传统方法6-12个百分点。

背景与挑战

背景概述

FaceShield-pre10K和FaceShield-sft45K数据集由Shijiazhuang Tiedao University、Shanghai Jiao Tong University等机构的研究团队于2025年提出，旨在解决人脸防伪（Face Anti-Spoofing, FAS）领域的关键问题。该数据集通过结合多模态大语言模型（MLLMs）的能力，不仅能够区分真实与伪造人脸，还能识别具体的攻击类型、提供判断依据并定位攻击区域。FaceShield数据集的构建填补了FAS领域缺乏专门预训练和微调数据集的空白，显著提升了模型在跨域场景下的泛化能力和解释性，推动了人脸防伪技术向多任务、可解释性方向发展。

当前挑战

FaceShield数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，传统FAS方法难以区分高度相似的真实与伪造人脸特征，且缺乏对攻击类型的细粒度识别和解释性推理能力。构建过程中，数据集的创建需要处理多源异构数据（如WMCA、SiW-Mv2等）的整合与标注，确保12种攻击类型的覆盖全面性；同时，生成高质量的问答对需克服MLLM生成内容的准确性与多样性平衡问题，以及视觉-语言模态对齐的复杂性。此外，数据集中攻击区域的精确定位标注也面临标注一致性与完整性的挑战。

常用场景

经典使用场景

FaceShield-pre10K和FaceShield-sft45K数据集在面部防伪（FAS）领域具有广泛的应用场景，特别是在多模态大语言模型（MLLM）的训练和评估中。这些数据集通过提供丰富的多任务指令数据，支持粗粒度分类、细粒度分类、推理和攻击区域定位等任务。其经典使用场景包括面部识别系统的安全性增强，通过识别和定位伪造攻击（如打印攻击、重放攻击和3D面具攻击），确保系统的可靠性和安全性。

衍生相关工作

FaceShield数据集衍生了一系列经典研究工作，特别是在多模态大语言模型和面部防伪的交叉领域。例如，基于该数据集的研究提出了Spoof-Aware Vision Perception（SAVP）和Prompt-Guided Vision Token Masking（PVTM）等创新方法，显著提升了模型的泛化能力和解释性。此外，数据集还推动了如SHIELD和FakeShield等相关工作的进展，为FAS任务的多样化和复杂化提供了新的研究方向。

数据集最近研究