FLUXSynID Dataset

github2025-05-14 更新2025-05-22 收录

下载链接：

https://github.com/Raul2718/FLUXSynID

下载链接

链接失效反馈

官方服务：

资源简介：

FLUXSynID是一个用于生成具有可控身份属性的高分辨率合成人脸数据集的框架。它为每个身份生成配对的文档风格和实时捕获图像，非常适合生物识别研究任务，如人脸识别和变形攻击检测。

FLUXSynID is a framework designed to generate a high-resolution synthetic facial dataset with controllable identity attributes. It produces paired document-style and real-time captured images for each identity, making it highly suitable for biometric research tasks such as facial recognition and deformation attack detection.

创建时间：

2025-04-25

原始信息汇总

FLUXSynID 数据集概述

数据集简介

名称: FLUXSynID
用途: 生成高分辨率可控身份属性的合成人脸数据集，适用于生物特征识别研究（如人脸识别、形态攻击检测）
特点: 每个身份包含配对的证件照和实拍图像
数据规模: 14,889个合成身份
论文: arXiv论文链接
下载地址: Zenodo数据集下载

技术特性

框架功能:
- 可控身份属性生成
- 证件照和实拍图像配对生成
- 基于相似度的身份过滤
支持模型:
- 证件照生成: FLUX.1 [dev]
- 实拍图像生成: LivePortrait/PuLID/Arc2Face
- 人脸识别: AdaFace/ArcFace/CurricularFace

系统要求

硬件:
- NVIDIA GPU（计算能力≥6.0）
- 24GB+显存
软件:
- Python 3.11
- CUDA 12.8
- PyTorch 2.7

数据集生成流程

身份属性设置
- 14个预定义属性类别
- 支持自定义属性概率和冲突规则
提示词生成
- 基于Qwen2.5 LLM生成身份描述
图像生成
- 证件照生成
- 实拍图像生成（支持多种风格）
身份过滤
- 相似身份过滤（可选）
- 失败案例清理

引用信息

bibtex @misc{Ismayilov2025FLUXSynID, title={FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images}, author={Raul Ismayilov and Dzemila Sero and Luuk Spreeuwers}, journal = {arXiv preprint arXiv:2505.07530}, year={2025} }

资助声明

欧盟EINSTEIN项目资助（G.A. no. 101121280）
UKRI资助（IFS reference 10093453）

搜集汇总

数据集介绍

构建方式

FLUXSynID数据集通过先进的生成式人工智能技术构建，采用多阶段合成流程确保身份属性的精确控制。该框架首先基于Qwen2.5大语言模型生成具有14类可控属性（如年龄、发型等）的文本描述，随后通过FLUX.1模型生成证件式图像，并运用LivePortrait、PuLID和Arc2Face三种模型生成活体捕捉图像。数据集构建过程中特别设计了属性冲突检测机制和概率分布控制，确保生成身份的多样性和合理性，最终形成包含14,889个合成身份的配对图像集合。

特点

该数据集的核心特征在于其高精度的身份可控性，每个身份包含证件式与活体图像的配对样本，为生物特征识别研究提供理想实验材料。通过预定义的14类属性配置文件，研究者可精确控制生成身份的性别、年龄等人口统计学特征。数据集采用相似性过滤技术确保身份多样性，支持AdaFace、ArcFace等三种人脸识别系统进行相似度筛查，将错误匹配率控制在0.01%以下。所有图像均以高分辨率生成，充分保留面部细节特征。

使用方法

使用该数据集需配置Python 3.11环境及24GB显存以上的NVIDIA GPU，支持Linux/Windows系统及Docker部署。研究者可通过修改attributes目录下的配置文件自定义生成属性，运行generate_prompts脚本启动文本描述生成，继而调用generate_document_imgs和generate_live_imgs系列脚本生成图像。数据集提供相似性过滤功能，用户可选用不同人脸识别模型进行去重处理，最终通过delete_missing_folders脚本清理相似身份，获得优化后的数据集。所有操作流程在框架文档中均有详细说明。

背景与挑战

背景概述

FLUXSynID数据集是由Raul Ismayilov、Dzemila Sero和Luuk Spreeuwers等研究人员在2025年提出的一个高分辨率合成人脸数据集生成框架。该数据集依托于欧盟EINSTEIN项目（资助号101121280）和英国UKRI（资助号10093453）的支持，旨在为生物特征识别研究提供可控身份属性的合成数据。其核心创新在于通过先进生成模型（如FLUX.1、Arc2Face）构建配对的证件照与实拍图像，解决了传统人脸数据集中身份多样性不足、隐私合规风险高等问题，为面部识别、形态攻击检测等任务提供了标准化基准。

当前挑战

构建FLUXSynID面临双重挑战：在领域问题层面，需突破合成数据与真实场景的域差距，确保生成图像在光照、姿态等维度具备生物特征识别所需的真实性；在技术实现层面，框架依赖多模态模型协同（如Qwen2.5生成属性描述、FLUX.1生成图像），需解决GPU显存占用高（24GB+）、计算架构兼容性（仅支持NVIDIA GPU Compute Capability≥6.0）等工程难题。此外，通过AdaFace等模型进行身份相似性过滤时，需平衡数据集多样性保留与冗余消除的阈值选择。

常用场景

经典使用场景

在生物特征识别研究领域，FLUXSynID数据集因其高分辨率合成人脸图像和可控身份属性而成为经典工具。该数据集通过生成配对的证件照和实时捕捉图像，为研究人员提供了标准化的测试平台。在面部识别算法开发过程中，研究者可利用该数据集验证模型在跨场景图像中的鲁棒性，特别是在证件照与生活照的匹配场景下表现尤为突出。数据集的可控属性设置允许系统性地评估算法对不同年龄、种族和面部特征的识别性能。

衍生相关工作

FLUXSynID的发布催生了多个创新研究方向。基于其框架衍生的Arc2Face和PuLID模型提升了合成图像的逼真度，相关成果发表于CVPR等顶级会议。在对抗样本研究方面，该数据集支撑了新型面部变形攻击检测算法的开发，相关论文被IEEE TIFS收录。数据集构建方法论也启发了后续工作，如SynFace项目将其属性控制机制扩展至微表情生成领域。欧盟EINSTEIN项目基于该框架进一步开发了跨模态生物特征合成系统，推动了合成数据在隐私保护中的应用。

数据集最近研究