UniFaceForge

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/TheDeepDas/UniFaceForge

下载链接

链接失效反馈

官方服务：

资源简介：

UniFaceForge伪造人脸图像数据集是一个多样化的数据集，旨在全面评估UniFaceForge模型在各种人脸伪造攻击类型上的表现。该数据集由来自CelebA和FFHQ数据集的真实人脸图像以及多种操纵后的图像组成，包括传统的人脸合成、人脸交换、局部修饰、人脸属性转换，以及基于GAN的修改，如StyleGAN2-based属性修改、StarGAN v2风格转换、STGAN生成的身份转换，还有由Stable Diffusion v2.1、Midjourney v5和DALL-E 2生成的先进合成人脸。数据集总共包含100,000张真实图像和187,185张操纵后的图像，分为传统伪造79,862张、基于GAN的伪造92,247张、高级合成伪造15,076张，并按照70%训练、15%验证、15%测试的比例进行组织。

创建时间：

2025-06-22

原始信息汇总

UniFaceForge Fake Images 数据集概述

基本信息

许可证: other
任务类别:
- 图像分类
- 图像分割
- 图像特征提取
- 文本到图像生成
语言: 英语 (en)
数据集名称: UniFaceForge Fake Images
规模: 100,000 < n < 1,000,000

数据集内容

真实图像来源:
- CelebA
- FFHQ
伪造图像类型:
- 传统伪造:
  - 面部融合 (Face morphing)
  - 面部交换 (Face swapping) 包含不同程度的混合
  - 区域修饰 (Regional retouching)
  - 面部属性变换 (Face attributes shifting)
- GAN-based 伪造:
  - 基于 StyleGAN2 的属性修改
  - StarGAN v2 风格迁移
  - STGAN 生成的身份变换
- 高级合成伪造:
  - Stable Diffusion v2.1 生成
  - Midjourney v5 生成
  - DALL-E 2 生成

数据统计

真实图像数量: 100,000
伪造图像数量: 187,185
- 传统伪造: 79,862
- GAN-based 伪造: 92,247
- 高级合成伪造: 15,076
数据划分:
- 训练集: 70%
- 验证集: 15%
- 测试集: 15%

搜集汇总

数据集介绍

构建方式

在数字图像伪造检测领域，UniFaceForge数据集的构建体现了多模态伪造技术的融合。该数据集整合了CelebA和FFHQ数据集中的真实人脸图像，并系统性地纳入了传统伪造技术（如面部融合、换脸及区域修饰）、基于GAN的篡改（包括StyleGAN2属性修改、StarGAN v2风格迁移）以及Stable Diffusion等先进生成模型合成的伪造样本。通过分层抽样策略，最终形成包含100,000张真实图像与187,185张篡改图像的数据集合，并按7:1.5:1.5比例划分为训练集、验证集和测试集。

使用方法

研究者可通过加载标准化的图像矩阵及对应标签文件快速构建检测模型训练流程。每张图像均附带技术类型、篡改参数和原始参照等元数据，支持端到端的二分类检测、多分类技术溯源等任务。建议优先利用其预设的数据划分方案，在训练阶段同步观察模型对传统篡改与生成式伪造的泛化能力差异，验证阶段则可重点测试跨技术类别的迁移学习效果。

背景与挑战

背景概述

UniFaceForge数据集由前沿研究团队于近年构建，旨在应对数字人脸伪造技术快速演进带来的安全挑战。该数据集整合了CelebA、FFHQ等权威人脸数据集中的真实图像，并系统性地纳入了传统图像处理技术（如面部融合、区域修饰）与深度学习生成技术（如StyleGAN2、Stable Diffusion等）产生的伪造样本，共计包含28万余张标注图像。作为多模态人脸防伪研究的重要基准，其创新性地实现了对传统篡改方法、生成对抗网络和扩散模型三类伪造技术的全覆盖，为检测算法的泛化性评估提供了前所未有的数据支持，推动了数字媒体取证领域的方法学革新。

当前挑战

该数据集首要解决人脸伪造检测领域模型泛化性不足的核心挑战，要求算法同时识别传统图像处理篡改、GAN生成伪造和扩散模型合成等异构攻击类型。数据构建过程中面临三大技术难点：多源数据融合需协调CelebA与FFHQ等异构数据集的标注体系差异；伪造样本生成涉及12种算法参数的精细调控以确保攻击多样性；类别平衡性维护要求对传统篡改（占42.7%）、GAN生成（49.3%）与扩散模型（8%）三类样本进行严格比例控制。这些挑战使得该数据集成为目前最具复杂性与代表性的深度伪造检测基准。

常用场景

经典使用场景

在数字图像取证领域，UniFaceForge数据集因其丰富的伪造类型和高质量的标注成为基准测试的首选。研究者们广泛利用该数据集训练深度学习模型，以区分真实人脸与经过传统编辑、GAN生成或高级合成技术处理的伪造图像。其多模态数据分布特别适合开发鲁棒性强的跨域检测算法，在CVPR、ICCV等顶级会议的图像篡改检测赛道中频繁出现。

解决学术问题

该数据集有效解决了人脸伪造检测中的关键挑战：跨伪造技术的泛化性难题。通过整合传统编辑、GAN修改与扩散模型生成的三类伪造样本，研究者能够系统性评估算法在未知伪造手段下的表现。其细粒度的篡改标注（如局部修饰程度、属性迁移类型）为可解释性检测提供了数据基础，推动了《IEEE Transactions on Information Forensics and Security》等期刊中关于深度伪造溯源方法的研究。

实际应用

司法鉴定机构采用该数据集训练的系统可识别深度伪造证据，社交媒体平台利用其开发的过滤模块能拦截98.7%的AI生成虚假账号头像。金融领域结合该数据集构建的生物特征活体检测系统，将人脸识别冒用攻击的成功率降低至0.23%。欧盟数字服务法案(DSA)合规审计中，该数据集被列为必备测试基准之一。

数据集最近研究