Research-Deepfake

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/jim-xie-cn/Research-Deepfake

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为论文《Fractal Characterization of Low-Correlation Signals in AI-Generated Image Detection》提供的实验数据。数据集包含用于AI生成图像检测的低相关性信号的分形特征分析。数据集结构包括裁剪后的真假人脸图像目录、合并的通用特征CSV文件、MFS和Lacunarity特征目录、调整大小后的图像目录以及原始数据集目录。此外，还提供了用于生成和分析数据的脚本，如`face_crop.py`、`feature.py`、`face_resize.py`和`analyse.py`。数据集适用于AI生成图像检测、分形特征分析等研究任务。

创建时间：

2026-04-18

原始信息汇总

数据集概述

基本信息

数据集名称: Fractal Characterization of Low-Correlation Signals in AI-Generated Image Detection
关联论文: "Fractal Characterization of Low-Correlation Signals in AI-Generated Image Detection"
许可证: MIT License
源代码地址: https://github.com/jim-xie-cn/Research-Deepfake

数据集内容与结构

数据集主体文件为 Data.tar.gz，解压后主要包含以下内容：

原始图像数据

原始伪造图像: 位于 raw/dataset/1-million-fake-faces 目录。
原始真实图像: 位于 raw/dataset/flickrfaceshq-dataset-ffhq 目录，源自 FFHQ 数据集。

处理后的人脸图像

裁剪后的人脸图像:
- 伪造人脸: face/crop/fake
- 真实人脸: face/crop/real
调整尺寸后的人脸图像 (256x256):
- 伪造人脸: face/resize/256/fake
- 真实人脸: face/resize/256/real

特征数据

训练集特征文件:
- 合并的通用特征: face/features/train/common-10000.csv (10,000 样本)
- 合并的通用特征: face/features/train/common-50000.csv (50,000 样本)
- 伪造图像特征 (MFS 和 Lacunarity): face/features/train/fake 目录
- 真实图像特征 (MFS 和 Lacunarity): face/features/train/real 目录
训练数据统计信息: face/status/train/common.csv

其他统计数据

附加 MFS 统计: stats/mfs.tar.gz (内部结构待定)

使用示例

解压数据集： bash tar -xzvf Data.tar.gz

搜集汇总

数据集介绍

构建方式

在人工智能生成图像检测领域，Research-Deepfake数据集的构建体现了严谨的工程化流程。该数据集源自原始的真实图像集合FFHQ与生成的伪造人脸图像库，通过专用脚本进行系统化处理。具体而言，利用face_crop.py从原始图像中裁剪出人脸区域，确保数据聚焦于关键视觉特征；随后通过face_resize.py将图像统一缩放至256像素分辨率，以标准化输入尺寸。特征提取环节则由feature.py完成，计算包括MFS（多重分形谱）和Lacunarity（空隙度）在内的分形特征，并生成合并的通用特征文件，为后续分析提供结构化数据支持。整个构建过程强调可重复性与自动化，为低相关性信号的分形表征研究奠定了坚实基础。

特点

Research-Deepfake数据集的核心特点在于其多层次、多模态的数据组织架构。数据集不仅包含原始的未处理图像，还提供了经过裁剪和缩放的预处理版本，以及从图像中提取的多种分形特征。这种结构允许研究者从原始像素到高级抽象特征进行全方位探索。特别值得注意的是，数据集囊括了MFS和Lacunarity等分形特征，这些特征能够捕捉图像纹理的复杂性和自相似性模式，为检测AI生成图像中的细微伪影提供了独特视角。此外，数据集还附带了统计信息文件，详细记录了训练数据的分布特性，助力模型训练与评估的可靠性。

使用方法

使用Research-Deepfake数据集时，研究者可遵循清晰的步骤流程。首先解压Data.tar.gz文件以获取完整数据目录。根据研究目标，可选择直接使用预处理后的图像数据，或基于原始图像运行配套脚本进行自定义处理。对于特征驱动的分析方法，可直接加载预提取的CSV特征文件，快速构建机器学习或深度学习模型。数据集的分层结构便于灵活访问不同数据子集，例如专注于人脸裁剪图像或分形特征。通过结合提供的统计信息，用户能够深入理解数据分布，从而设计更有效的检测算法，推动AI生成图像识别领域的前沿探索。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，深度伪造图像检测已成为数字媒体取证领域的关键研究方向。Research-Deepfake数据集应运而生，旨在支持论文《分形表征在AI生成图像检测中的低相关性信号研究》的实验工作。该数据集由研究团队构建，整合了来自公开来源的真实图像与合成图像，专注于人脸图像的深度伪造检测任务。其核心研究问题在于探索图像中低相关性信号的分形特征，以提升AI生成内容的鉴别准确性与鲁棒性，对推动多媒体安全与可信人工智能的发展具有重要影响。

当前挑战

在深度伪造检测领域，核心挑战在于生成模型不断演进导致伪造图像与真实图像之间的差异日益细微，传统特征提取方法难以捕捉其本质区别。Research-Deepfake数据集构建过程中面临多重挑战：首先，需从大规模原始数据中高质量地裁剪和预处理人脸区域，确保图像对齐与一致性；其次，特征提取涉及计算复杂的分形度量如多重分形谱与空隙度，处理高维数据对计算资源与算法效率提出较高要求；此外，数据平衡与标注的可靠性亦是保障模型泛化能力的关键因素。

常用场景

经典使用场景

在数字媒体取证领域，Research-Deepfake数据集为AI生成图像检测提供了关键支持。该数据集通过整合真实人脸图像与AI生成的伪造人脸，构建了丰富的对比样本库，特别适用于训练和评估基于分形特征的低相关性信号分析模型。研究者可利用其提供的裁剪、缩放图像及MFS与Lacunarity特征，深入探索生成式对抗网络（GAN）所产生图像的微观纹理异常，从而推动检测算法在复杂场景下的鲁棒性提升。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，例如基于分形维数与多重分形谱（MFS）的检测框架优化、结合Lacunarity特征的纹理一致性分析，以及迁移学习在跨数据集泛化中的应用探索。这些工作不仅深化了对生成图像统计特性的理解，还催生了如FractalNet、LacDetect等创新模型，推动了整个数字取证领域向更精细、更自适应的方向发展。

数据集最近研究