Hybrid Generative Fusion Face Recognition Dataset
收藏arXiv2025-08-18 更新2025-08-16 收录
下载链接:
https://github.com/Ferry-Li/datacv_fr
下载链接
链接失效反馈官方服务:
资源简介:
本文提出了一种名为Hybrid Generative Fusion的合成人脸数据集构建方法,旨在解决人脸识别领域的数据隐私问题。数据集由中国科学院信息工程研究所等机构的研究人员创建,包含50万张合成人脸图片,每个身份有50张图片。该数据集通过结合数据清洗、身份合成和课程学习策略构建而成,旨在提高人脸识别模型的性能。数据集在DataCV ICCV挑战赛中获得第一名,并在10K、20K和100K身份规模上取得了优异的识别效果。
This paper proposes a synthetic face dataset construction method named Hybrid Generative Fusion, aiming to address the data privacy issues in the field of face recognition. The dataset was created by researchers from institutions including the Institute of Information Engineering, Chinese Academy of Sciences, and contains 500,000 synthetic face images, with 50 images per identity. Constructed by integrating data cleaning, identity synthesis and curriculum learning strategies, this dataset is designed to improve the performance of face recognition models. The dataset secured first place in the DataCV ICCV Challenge, and achieved excellent recognition performance on identity scales of 10K, 20K and 100K.
提供机构:
中国科学院信息工程研究所, 中国科学院大学网络空间安全学院, 中国科学院计算技术研究所, 中国科学院大学计算机科学与技术学院, 中国科学院大学大数据与知识管理研究中心
创建时间:
2025-08-14
原始信息汇总
数据集概述
数据集来源
- 该数据集是Ferry_Li为第4届DataCV挑战赛(与ICCV 2025联合举办)准备的代码库中使用的数据集。
数据集规模
- 训练集规模为10K级别。
数据集获取
- 10K-scale训练集下载地址:https://drive.google.com/file/d/1Lw09rwuVQN8jOYjx2YJQN431TuCECfZn/view?usp=drive_link
数据处理步骤
-
特征提取
- 使用
feature_extractor.py从HSFace数据集中提取图像嵌入。
- 使用
-
一致性身份图像路径记录
- 运行
reduce_hsface.py记录HSFace数据集中身份一致的图像路径。
- 运行
-
不一致身份图像路径记录
- 运行
gpt_clean_parallel.py记录HSFace数据集中身份不一致的图像路径。
- 运行
-
格式转换
- 运行
convert.py将json格式转换为txt格式。
- 运行
-
数据增强
- 运行
hsface_makeup.py将每个身份的图像增强至50张,并保存增强后的图像。
- 运行
-
新图像生成
- 运行
generate_id.py基于不同提示为每个身份生成新图像。
- 运行
-
图像扩展
- 使用
image_generation_with_reference.py将每个身份的1张图像扩展至50张。
- 使用
-
数据集合并
- 运行
merge_dataset.py合并清理后的HSFace数据集和扩散-Vec2Face扩展数据集。
- 运行
搜集汇总
数据集介绍

构建方式
在构建DataCV ICCV人脸识别数据集时,研究团队采用了混合生成融合策略,结合了数据集清洗、身份生成和课程学习数据构建方法。首先对基准HSFace数据集进行深度清洗,通过专家混合策略(MoE)结合人脸嵌入聚类和GPT-4o辅助验证,去除标签噪声和不一致的身份。随后利用Stable Diffusion和Vec2Face生成合成身份,确保每个身份包含50张图像,并通过课程学习策略优化数据排列顺序,从低难度样本逐步过渡到高难度样本。
特点
DataCV ICCV人脸识别数据集具有高质量和隐私保护的双重特点。数据集通过严格的清洗流程确保了身份标签的准确性,同时利用生成模型合成的身份避免了与真实世界身份的重叠,符合隐私保护要求。合成身份通过Vec2Face生成,保持了高度的身份一致性,而课程学习策略则优化了模型训练过程,提升了识别性能。数据集提供了10K、20K和100K三种规模,每种规模下每个身份包含50张图像,覆盖了广泛的识别场景。
使用方法
使用DataCV ICCV人脸识别数据集时,建议采用课程学习策略进行模型训练,首先利用合成身份的低难度样本建立基础识别能力,再逐步引入清洗后的HSFace数据集中更具挑战性的样本。数据集适用于训练固定结构的人脸识别模型,无需额外调整即可直接用于模型训练。在使用生成身份时,需确保模型能够处理合成数据中的低类内差异,同时通过数据增强技术进一步提升模型的泛化能力。
背景与挑战
背景概述
DataCV ICCV Face Recognition Dataset是由中国科学院信息工程研究所、中国科学院计算技术研究所等机构的研究团队于2025年提出的合成人脸识别数据集。该数据集旨在解决当前人脸识别领域因隐私、伦理和法律限制而难以获取真实人脸数据的核心问题。研究团队通过混合生成融合技术,结合Stable Diffusion和Vec2Face等先进方法,构建了不包含任何真实身份的高质量合成数据集。该数据集在10K、20K和100K三个规模上均取得了优异的识别性能,为隐私保护下的人脸识别研究提供了重要基准。
当前挑战
该数据集面临的主要挑战包括:1)身份一致性难题:生成模型需在保持身份特征的同时产生足够多样性;2)类内变化不足:合成数据往往缺乏真实人脸在姿态、光照等方面的自然变化;3)身份泄露风险:必须确保合成身份不与任何真实身份重叠;4)计算成本高昂:高质量图像生成需要大量计算资源。在构建过程中,研究团队还需解决标签噪声过滤、多模态验证等技术挑战,以确保数据集的可靠性和实用性。
常用场景
经典使用场景
在计算机视觉领域,DataCV ICCV Face Recognition Dataset为研究人员提供了一个高质量的人脸识别数据集,特别适用于训练和评估深度学习模型。该数据集通过混合生成融合技术,结合了真实数据的多样性和合成数据的一致性,使得模型能够在缺乏真实身份数据的情况下仍能保持高性能。经典使用场景包括跨数据集验证、模型鲁棒性测试以及隐私保护下的人脸识别研究。
解决学术问题
该数据集解决了人脸识别研究中几个关键学术问题。首先,通过严格的清洗和生成流程,确保了数据集中身份的独立性和一致性,避免了身份重叠问题。其次,采用课程学习策略,有效缓解了合成数据中类内多样性不足的问题,提升了模型在复杂场景下的泛化能力。此外,该数据集为隐私保护下的人脸识别研究提供了新的基准,推动了合成数据在实际应用中的可行性研究。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括基于混合专家(MoE)策略的数据清洗方法、Stable Diffusion与Vec2Face结合的生成技术,以及课程学习在合成数据训练中的应用。这些工作不仅推动了人脸识别技术的发展,还为其他视觉任务的合成数据生成提供了重要参考。例如,后续研究在此基础上进一步探索了多模态生成模型在数据增强中的应用,以及跨模态身份一致性保持等前沿课题。
以上内容由遇见数据集搜集并总结生成



