90K-image benchmark

github2026-02-02 更新2026-02-06 收录

下载链接：

https://github.com/emirhanbilgic/INP-X

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个90K-image benchmark，扩展了Semi-Truths，覆盖了4个数据集：CelebA-HQ、CityScapes、OpenImages和SUN-RGBD。每个数据集包括：1. 真实图像（x）；2. 标准修复图像（x̃）；3. 交换修复图像（x^ex）。修复使用了三种模型：Kandinsky 2.2、OpenJourney和Stable Diffusion v1.4。

本研究构建了一个包含9万张图像的基准测试集（benchmark），该测试集基于Semi-Truths扩展而来，涵盖CelebA-HQ、CityScapes、OpenImages及SUN-RGBD共4个数据集。每个数据集均包含三类数据：1. 真实图像（x）；2. 标准修复图像（x̃）；3. 交换式修复图像（x^ex）。图像修复环节采用了Kandinsky 2.2、OpenJourney与Stable Diffusion v1.4三款模型完成。

创建时间：

2026-01-30

原始信息汇总

INP-X: Inpainting Exchange 数据集概述

数据集简介

INP-X（Inpainting Exchange）数据集是一个用于研究AI生成图像检测器可靠性的基准数据集。该数据集旨在揭示当前检测器主要依赖图像修复产生的全局伪影，而非局部合成内容进行判断的局限性。

数据集规模与构成

总规模：包含约90,000张图像。
基础数据源：扩展自Semi-Truths数据集，涵盖以下4个公开数据集：
- CelebA-HQ
- CityScapes
- OpenImages
- SUN-RGBD
图像类型：每个数据源包含三种类型的图像：
1. 真实图像 (x)
2. 标准修复图像 (x̃)
3. 交换修复图像 (x^ex)
修复模型：使用三种AI修复模型生成修复图像：
- Kandinsky 2.2
- OpenJourney
- Stable Diffusion v1.4

核心方法与目的

INP-X操作：一种图像处理操作，其核心是在编辑区域外恢复原始像素，同时保留掩码区域内所有合成内容。该操作旨在测试检测器是否真正识别局部合成内容。
研究背景：基于变分自编码器（VAE）的重建过程会在整个图像（包括未编辑区域）引入细微但可检测的全局频谱偏移伪影。现有检测器被发现过度依赖这些全局伪影。
研究目的：通过INP-X数据集评估和提升AI生成图像检测器在排除全局伪影干扰后的真实检测与定位能力。

关键发现（基于数据集验证）

检测器脆弱性：在INP-X图像上，预训练的最先进检测器准确率出现大幅下降（例如，从91%降至55%），常接近随机猜测水平。
改进的训练数据：使用INP-X图像进行训练，相比使用标准修复图像，能带来更好的模型泛化能力和对编辑区域的定位能力。
定位性能：在INP-X图像上训练的检测器，其注意力（通过GradCAM可视化）能更好地定位到实际的编辑区域，而非分散于全局。

数据集验证结果摘要

预训练检测器性能对比

检测器	数据	准确率	AUC
Corvi2023	标准修复 (INP)	0.942	0.989
Corvi2023	交换修复 (INP-X)	0.554	0.519
DNF	标准修复 (INP)	0.710	0.779
DNF	交换修复 (INP-X)	0.604	0.643
SPAI	标准修复 (INP)	0.661	0.743
SPAI	交换修复 (INP-X)	0.542	0.567

商业API检测器性能对比

检测器	数据	准确率	AUC
Hive Moderation	标准修复 (INP)	0.914	0.921
Hive Moderation	交换修复 (INP-X)	0.548	0.578
Sightengine	标准修复 (INP)	0.926	0.935
Sightengine	交换修复 (INP-X)	0.550	0.588

相关资源

论文标题：AI-Generated Image Detectors Overrely on Global Artifacts: Evidence from Inpainting Exchange
作者：Elif Nebioglu, Emirhan Bilgiç, Adrian Popescu
代码与数据仓库：https://github.com/emirhanbilgic/INP-X
许可证：MIT License

搜集汇总

数据集介绍

构建方式

在图像伪造检测领域，构建高质量的数据集对于评估和提升检测算法至关重要。90K-image benchmark 数据集通过扩展 Semi-Truths 框架，整合了四个广泛使用的视觉数据集：CelebA-HQ、CityScapes、OpenImages 和 SUN-RGBD。每个数据集均包含原始真实图像、标准修复图像以及交换修复图像三种类型，其中修复操作采用了 Kandinsky 2.2、OpenJourney 和 Stable Diffusion v1.4 三种先进的生成模型。数据集的构建过程注重多样性与真实性，旨在模拟实际场景中的图像篡改行为，为检测算法提供全面而具有挑战性的评估基准。

特点

该数据集的核心特点在于其引入了交换修复图像这一创新类别，通过 INP-X 操作精准恢复未编辑区域的原始像素，同时保留掩码内的合成内容。这一设计揭示了现有检测器过度依赖全局伪影而非局部合成内容的局限性。数据集的规模达到九万张图像，覆盖人脸、城市景观、开放图像和室内场景等多个领域，确保了广泛的适用性。此外，数据集包含多种修复模型生成的样本，增强了其多样性和代表性，为深入研究检测算法的鲁棒性与泛化能力提供了宝贵资源。

使用方法

在图像伪造检测研究中，该数据集主要用于训练和评估检测模型的性能。研究人员可以基于原始图像、标准修复图像和交换修复图像的对比，分析检测器对全局伪影与局部合成内容的依赖程度。数据集支持直接加载图像对及其对应掩码，便于实施 INP-X 操作以生成交换图像。通过集成提供的代码库，用户能够复现论文中的实验，测试现有检测器在交换图像上的表现，并探索改进训练策略以提升检测器的定位能力与泛化性能。

背景与挑战

背景概述

在数字图像处理领域，深度修复技术的飞速发展使得局部图像编辑变得日益逼真，这为AI生成图像的可靠检测带来了严峻考验。2026年，由Elif Nebioglu、Emirhan Bilgiç和Adrian Popescu等研究人员构建的90K-image benchmark数据集应运而生，旨在系统评估现有检测器对修复图像中合成内容的识别能力。该数据集扩展自Semi-Truths基准，覆盖CelebA-HQ、CityScapes、OpenImages和SUN-RGBD四个经典视觉数据集，并整合了Kandinsky 2.2、OpenJourney及Stable Diffusion v1.4等多种修复模型生成的图像变体。其核心研究问题聚焦于揭示当前检测器过度依赖全局伪影而非局部合成内容的局限性，为提升检测器的泛化性与定位精度提供了关键数据支撑。

当前挑战

该数据集所针对的领域挑战在于，现有AI生成图像检测器往往难以准确区分修复区域内的合成内容与由VAE重建过程引入的全局频谱偏移伪影，导致检测性能在真实编辑内容保留而全局伪影消除的INP-X图像上显著下降。构建过程中的挑战则体现在大规模数据集的精心构造上，需在多个异构视觉数据集中协调原始图像、标准修复图像及交换修复图像的三元组对齐，同时确保不同修复模型生成结果的质量一致性，以全面反映检测器在复杂场景下的脆弱性。

常用场景

经典使用场景

在数字图像取证与人工智能生成内容检测领域，90K-image benchmark数据集为评估和提升深度伪造检测模型的鲁棒性提供了关键基准。该数据集通过整合CelebA-HQ、CityScapes等多样化视觉数据，并引入标准修复与交换修复两种图像变体，使研究者能够系统分析检测器对局部合成内容与全局伪影的依赖程度。经典应用场景包括训练和测试基于深度学习的检测算法，以揭示模型是否真正识别图像中的篡改区域，而非仅响应由变分自编码器引入的全局频谱偏移。

解决学术问题

该数据集有效解决了生成式人工智能时代图像真实性验证中的核心学术问题，即现有检测器过度依赖全局伪影而非局部合成内容的问题。通过INP-X操作剥离全局伪影，数据集促使检测模型聚焦于实际编辑区域，从而推动更精准的局部篡改检测方法的发展。其意义在于揭示了当前检测技术的脆弱性，并为构建更稳健、可解释的检测框架提供了实证基础，对提升数字媒体可信度与安全治理具有深远影响。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在改进图像修复检测的算法设计与评估范式上。例如，基于INP-X的交换修复机制启发了对检测器注意力局部化的深入探索，促进了如GradCAM等可视化工具在篡改定位中的应用。后续研究进一步拓展了多模态检测框架，结合频率分析与语义理解，以应对更复杂的生成模型。这些工作共同推动了图像取证领域从依赖全局特征向精细化局部分析的理论与实践转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集