Forgery ADE

Name: Forgery ADE
Creator: 大连理工大学
Published: 2025-04-10 13:20:29
License: 暂无描述

arXiv2025-04-10 更新2025-04-15 收录

下载链接：

https://github.com/ZhaoHengrun/GIFL

下载链接

链接失效反馈

官方服务：

资源简介：

Forgery ADE是一个新构建的图像伪造数据集，由大连理工大学的研究团队创建。该数据集包含了使用八种当前流行的深度学习图像编辑和生成方法（四种基于GAN的方法和四种基于扩散模型的方法）对ADE 20K数据集中的图像进行部分篡改得到的图像。数据集旨在促进针对深度学习模型产生的图像伪造的通用和跨方法检测研究，共有训练集图像20,210张，测试集图像2,000张，总计177,680张图像。

Forgery ADE is a newly constructed image forgery dataset developed by the research team at Dalian University of Technology. It comprises partially tampered images generated by applying eight currently popular deep learning-based image editing and generation methods (four GAN-based methods and four diffusion model-based methods) to the images within the ADE 20K dataset. This dataset is intended to promote research on general and cross-method detection of image forgeries produced by deep learning models. It contains 20,210 training images and 2,000 test images, with a total of 177,680 images in all.

提供机构：

大连理工大学

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

在深度学习技术迅猛发展的背景下，Forgery ADE数据集的构建旨在应对生成式AI带来的图像伪造挑战。该数据集基于ADE 20K数据集，通过应用8种主流深度生成图像编辑方法（包括4种GAN-based和4种扩散模型方法）对20,210张训练图像和2,000张测试图像进行局部篡改，最终生成177,680张伪造图像。为确保数据多样性，研究者采用与图像语义无关的不规则遮挡掩码，并通过随机旋转和翻转增强数据异质性。所有图像统一缩放至512×512分辨率，且未经过后处理混合以保留原始伪造痕迹，同时提供真实图像作为负样本以平衡训练数据。

特点

Forgery ADE数据集的核心特点体现在其前沿性和系统性：1）覆盖当前最先进的深度生成伪造技术（如Deepfill v2、LDM等），填补了传统数据集以手工拼接为主的空白；2）通过控制篡改区域与图像语义的无关性，避免模型依赖语义线索而非本质伪造特征；3）提供精确的像素级标注掩码及真实图像负样本，支持泛化性研究和假阳性控制；4）统计指标显示其篡改区域面积比（均值0.1292-0.1988）和空间分布多样性显著优于CASIA等传统数据集，更符合实际伪造场景的复杂性。

使用方法

该数据集支持多种研究范式：1）泛化性验证：建议以Deepfill v2和LDM作为训练集，其他6种方法作为未见伪造测试集；2）负样本平衡：推荐伪造图像与真实图像按1:1比例混合训练以抑制假阳性；3）跨方法对比：通过同一图像的不同伪造变体分析算法鲁棒性；4）预处理研究：提供未混合的原始输出以评估后处理（如掩码混合）对检测的影响。使用时需注意：直接使用生成模型原始输出（非混合图像）训练可避免模型学习混合边缘的伪特征，测试阶段则兼容混合与非混合图像。

背景与挑战

背景概述

Forgery ADE数据集由大连理工大学的研究团队于2025年创建，旨在应对生成式AI时代图像伪造检测的挑战。该数据集包含177,680张图像，覆盖了8种主流深度生成编辑方法（包括4种GAN和4种扩散模型），基于ADE20K数据集构建。其核心研究在于提出通用伪造定位范式（GIFL），通过聚焦原始图像特征而非特定伪造痕迹，实现了对未见伪造类型的检测突破。该工作首次系统研究了语义关联性、负样本比例等数据因素对检测泛化性的影响，为数字内容真实性认证提供了新基准。

当前挑战

Forgery ADE面临双重挑战：在领域问题层面，需解决生成式伪造方法快速演进导致的泛化性不足问题，传统依赖特定伪造痕迹的方法难以应对新型深度生成伪造；在构建层面，需平衡语义关联与随机伪造区域的比例以避免模型依赖语义线索，同时处理伪造区域尺度差异（0.01%-99%面积占比）带来的检测灵敏度问题，并设计负样本注入机制以抑制真实图像的误报。此外，数据需规避后处理掩码造成的模型捷径学习现象，确保检测器真正学习伪造本质特征而非混合边界痕迹。

常用场景

经典使用场景

Forgery ADE数据集在图像伪造检测领域具有广泛的应用场景，特别是在检测由深度生成模型（如GAN和扩散模型）生成的伪造图像方面表现突出。该数据集通过提供多种先进的图像编辑方法生成的伪造图像，为研究者提供了一个多样化的测试平台。经典使用场景包括训练和评估通用伪造检测模型，使其能够识别和定位不同类型的伪造区域，包括拼接、修复和生成式伪造。数据集的高质量和多样性使其成为评估模型在复杂场景下性能的理想选择。

解决学术问题

Forgery ADE数据集解决了图像伪造检测领域中的多个关键学术问题。首先，它弥补了现有数据集中缺乏深度生成模型伪造图像的不足，为研究现代伪造技术提供了必要的数据支持。其次，数据集通过提供多种伪造类型的图像，促进了通用伪造检测方法的研究，使模型能够识别未见过的伪造类型。此外，数据集还解决了语义关联和负样本不足等问题，为研究者提供了更全面的训练和测试环境。这些贡献显著提升了伪造检测领域的研究水平，推动了相关技术的发展。

衍生相关工作

Forgery ADE数据集已经衍生出多项经典研究工作。基于该数据集，研究者提出了通用图像伪造定位方法（GIFL），该方法通过学习原始图像的特征而非特定伪造痕迹，显著提升了模型的泛化能力。此外，数据集还被用于开发双域注意力网络（UFLT），结合空间和频谱域信息以提高检测精度。其他相关工作还包括针对语义关联和负样本问题的优化方法，这些研究进一步推动了图像伪造检测领域的技术进步。数据集的开放性和多样性为未来研究提供了丰富的可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集