GBDF

arXiv2022-07-21 更新2024-07-30 收录

下载链接：

https://github.com/aakash4305/GBDF

下载链接

链接失效反馈

官方服务：

资源简介：

一个性别平衡且带注释的深度伪造数据集，旨在减少性能差异并促进公平感知深度伪造检测器的研究和开发。

A gender-balanced and annotated deepfake dataset designed to mitigate performance disparities and advance the research and development of fairness-aware deepfake detectors.

创建时间：

2022-07-21

原始信息汇总

GBDF: Gender Balanced DeepFake Dataset

概述

GBDF数据集是一个公开可用的性别平衡注释的DeepFake数据集，源自FaceForensics++ (FF++)、Celeb-DF和Deeper Forensics-1.0。该数据集包含10,000个真实和伪造视频，使用不同的身份和表情交换DeepFake生成技术生成。数据集包含10,000个视频，其中男性和女性各5000个，真实与伪造视频的比例为1:4。

数据集属性

GBDF数据集使用FF++(c23版本)、Celeb-DF和DeeperForensics-1.0创建，包含10,000个视频，其中男性和女性各5000个。由于现有DeepFake数据集不包含人口统计信息，我们手动为这些数据集标注了性别标签。GBDF数据集中的DeepFake视频使用不同的身份交换（如FaceSwap、FaceSwap-Kowalski、FaceShifter、编码器-解码器风格和端到端面部交换技术）和表情交换（如Face2Face和NeuralTextures）DeepFake生成技术创建。数据集中大多数视频来自高加索人种。真实与伪造视频的比例为1:4。GBDF数据集进一步分为性别平衡和主题独立的训练和测试子集，比例为70:30。

下载

DeepFake数据集：请访问FF++、Celeb-DF、DeeperForensics-1.0网站并下载数据集。
性别注释：GBDF数据集的性别注释存储在releases中，可以下载为xlsx文件。xlsx文件("GBDF_training_labels.xlsx")提供了10,000个视频（男性和女性各5000个）的真实和DeepFake视频的性别注释版本。属性文件包含GBDF训练的性别注释。

引用

如果您使用此数据集，请引用以下论文：

@misc{https://doi.org/10.48550/arxiv.2207.10246, doi = {10.48550/ARXIV.2207.10246}, url = {https://arxiv.org/abs/2207.10246}, author = {Nadimpalli, Aakash Varma and Rattani, Ajita}, keywords = {Computer Vision and Pattern Recognition (cs.CV), Artificial Intelligence (cs.AI), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {GBDF: Gender Balanced DeepFake Dataset Towards Fair DeepFake Detection}, publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} }

搜集汇总

数据集介绍

构建方式

在深度伪造检测领域，现有数据集普遍缺乏人口统计标签，难以评估算法在不同性别群体间的公平性。GBDF数据集通过整合FaceForensics++、Celeb-DF和DeeperForensics-1.0三个主流深度伪造数据集，并手动标注性别标签构建而成。构建过程中，研究团队排除了性别不一致的不规则换脸样本，确保数据纯净性。最终形成的GBDF包含一万个视频，男女样本各占五千，实现了性别平衡，且真实与伪造视频比例为一比四。

特点

GBDF数据集的核心特点在于其性别平衡的样本分布，有效缓解了现有数据集中性别比例失衡的问题。该数据集涵盖了多种深度伪造生成技术，包括身份交换与表情交换等不同方法，提供了丰富的伪造类型。此外，GBDF采用了主体独立的训练与测试划分策略，避免了数据泄露，增强了评估的可靠性。其公开可用性也为推动公平性感知的深度伪造检测研究提供了重要资源。

使用方法

GBDF数据集主要用于训练和评估深度伪造检测模型在不同性别群体上的性能公平性。研究人员可将数据集按七比三的比例划分为训练集和测试集，利用其中平衡的性别样本进行模型训练。在评估阶段，通过计算男女群体间的错误率差异等指标，系统分析模型的偏差程度。该数据集也支持跨数据集泛化测试，有助于开发更具鲁棒性和公平性的检测算法。

背景与挑战

背景概述

随着深度生成模型的迅猛发展，合成媒体技术已臻至以假乱真的境地，对社会诚信与信息安全构成严峻挑战。在此背景下，威奇托州立大学的研究人员Aakash Varma Nadimpalli与Ajita Rattani于2022年7月发布了GBDF数据集，旨在应对深度伪造检测领域日益凸显的算法公平性问题。该数据集的核心研究议题聚焦于评估并缓解主流深度伪造检测模型在不同性别群体间存在的性能差异，通过构建一个性别平衡且标注详尽的视频库，为开发公平性感知的检测系统提供关键数据支撑，从而推动该技术向负责任的人工智能方向演进。

当前挑战

GBDF数据集致力于解决深度伪造检测中因数据偏差导致的算法公平性挑战。具体而言，现有主流数据集如FaceForensics++和Celeb-DF存在显著的性别分布失衡与大量非常规人脸替换样本，致使训练出的检测模型在女性样本上普遍表现不佳，加剧了技术应用中的性别偏见。在构建过程中，研究团队面临双重挑战：一是需对海量未标注原始视频进行精细的人工性别标注与非常规交换样本筛选，工作繁复且要求极高的一致性；二是需从多个异构数据源中融合并平衡样本，同时确保新数据集能涵盖多样化的身份与表情交换生成技术，以维持其代表性与泛化能力。

常用场景

经典使用场景

在深度伪造检测领域，GBDF数据集最经典的应用场景是作为评估和提升检测模型公平性的基准工具。该数据集通过提供性别平衡的真实与伪造视频样本，使研究者能够系统性地分析不同性别群体间的检测性能差异。在模型训练阶段，GBDF常被用于构建公平性感知的训练集，以缓解因数据分布不均导致的模型偏见。其精心设计的性别标签和排除不规则面部交换的特性，为深入探究检测算法在不同人口统计学子群上的泛化能力提供了标准化实验平台。

解决学术问题

GBDF数据集主要解决了深度伪造检测研究中长期被忽视的算法公平性问题。传统数据集如FaceForensics++和Celeb-DF存在显著的性别分布倾斜，且包含大量不规则面部交换，导致训练出的检测模型在不同性别间表现出性能差异，通常对男性样本的识别准确率高于女性。该数据集通过构建性别平衡的样本集合，为量化评估这种偏差提供了基准，并促进了公平性度量指标（如跨性别组的等错误率差异）在检测领域的应用。其意义在于推动了检测技术从单纯追求高准确率向兼顾社会伦理与公平性的范式转变。

衍生相关工作

GBDF数据集的发布催生了一系列关注检测算法公平性的衍生研究。例如，研究者基于GBDF进一步分析了不同网络架构（如XceptionNet、EfficientNet、LipForensics）在跨性别泛化能力上的差异，发现专注于嘴部运动分析的模型表现出更小的性能差异。此外，该数据集启发了对检测模型决策机制的可解释性研究，如利用Grad-CAM可视化技术揭示模型在男女性面部区域关注点的不同。这些工作深化了对算法偏见根源的理解，并推动了后续面向多人口属性（如种族、年龄）的平衡数据集构建以及公平性约束的检测模型设计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集