NTIRE 2026 Robust AI-Generated Image Detection in the Wild Dataset

github2026-04-13 更新2026-04-23 收录

下载链接：

https://github.com/msu-video-group/NTIRE-2026-DeepFake-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含真实和AI生成的图像，并带有额外的“野外”风格变换，用于基准测试检测方法的准确性、鲁棒性以及对未见过的生成器的泛化能力。数据集分为训练集、验证集、验证硬集、测试（公开）集和测试（私有）集，每个集都有不同的图像数量、真实/伪造比例、生成模型和变换方法。

This dataset contains both real and AI-generated images, paired with additional wild-style transformations, designed to benchmark the accuracy, robustness, and generalization capability of detection methods against unseen generators. The dataset is divided into training set, validation set, hard validation set, public test set, and private test set, where each subset features distinct quantities of images, real/fake ratios, generative models, and transformation approaches.

创建时间：

2026-03-25

原始信息汇总

NTIRE 2026 野外鲁棒AI生成图像检测数据集概述

数据集背景

本数据集为NTIRE 2026挑战赛“野外鲁棒AI生成图像检测”所构建。旨在解决文本到图像（T2I）模型生成的合成图像与真实照片难以区分所带来的信任、真实性、取证和内容安全问题。数据集特别引入了“野外”风格变换，以评估检测方法在图像经过后处理（如裁剪、调整大小、压缩、模糊）和分布变化时的准确性、鲁棒性以及对未见生成器的泛化能力。

数据划分与规模

划分	图像数量	真实/生成图像比例	是否提供标签	生成器模型数量	变换类型数量
训练集	~277,000	~1:1.77	是	20	12
验证集	10,000	1:1	否	9	19
验证集（困难部分）	2,500	1:1	否	7	19
测试集（公开）	2,500	1:1	否	10	22
测试集（私有）	2,500	~1:1	否	10	24

数据内容详情

生成器模型

训练集模型（20个）：YOSO PixArt-512, PixArt-α, PixArt-Σ, Kandinsky 2, Kandinsky 3, Kolors, OmniGen, OmniGen 2, Stable Diffusion 1.4, Stable Diffusion 1.5, Stable Diffusion 2.1, Stable Diffusion XL 1.0, SDXL Lightning, SDXL Turbo, Janus Pro 7B, Infinity 2B, Infinity 8B, Ovis Image, DeepFloyd IF, FLUX.1 Kontext Dev。
验证集模型（9个）：FLUX.1 Kontext Dev, SDXL Turbo, FLUX.1 Dev, Playground v2.5, Lumina Image 2.0, Qwen Image, Stable Diffusion 3 Medium, Ideogram v3 Turbo†, ImageGen-4 Fast†。
验证集（困难部分）模型（7个）：Playground v2.5, SDXL Turbo, HiDream, FLUX.1 Schnell, Stable Diffusion 3.5 Large Turbo, Nano Banana†, Seedream 4†。
测试集（公开）模型（10个）：HiDream, FLUX.1 Schnell, Stable Diffusion 3.5 Large, FLUX Krea, Z-Image Turbo, Nano Banana Pro†, FLUX-2 Max†, ImageGen-4 Ultra†, Seedream 5 Lite†, Groq Imagine Image†。
测试集（私有）模型（10个）：HiDream, Stable Diffusion 3.5 Large Turbo, FLUX.1 Dev SRPO, Z-Image Turbo, Kandinsky 5, Nano Banana 2†, GPT Image 1.5†, ImageGen-4 Ultra†, Seedream 5 Lite†, Groq Imagine Image†。（注：标记†的为专有模型）

图像变换类型

训练集变换（12种）：高斯模糊、镜头模糊、色彩偏移、色彩饱和度、JPEG压缩、白噪声、脉冲噪声、亮度增加、亮度降低、色彩抖动、色彩量化、线性对比度变化。
验证集变换（19种）：包含训练集的12种，并增加运动模糊、乘性噪声、像素化、RGB通道偏移、随机裁剪、随机纵横比裁剪、下采样。
验证集（困难部分）变换（19种）：高斯模糊、镜头模糊、JPEG压缩、白噪声、脉冲噪声、色彩量化、乘性噪声、RGB通道偏移、随机裁剪、随机纵横比裁剪、神经图像压缩（JPEG AI）、随机色调曲线、CLAHE、ISO噪声、透视变换、多重压缩（JPEG）、多重压缩（JPEG + JPEG AI）、水印攻击（Adv. Embedding, CLIP/ResNet）、下采样。
测试集（公开）变换（22种）：色彩饱和度、亮度增加、镜头模糊、JPEG压缩、脉冲噪声、RGB通道偏移、随机裁剪、随机纵横比裁剪、神经图像压缩（JPEG AI）、随机色调曲线、CLAHE、ISO噪声、透视变换、多重压缩（JPEG）、多重压缩（JPEG + JPEG AI）、水印攻击（Adv. Embedding, CLIP/ResNet）、JPEG 2000、水印攻击（WMForger）、神经图像压缩（Cheng2020）、散粒噪声、下采样、不可见水印插入（6种算法之一）。
测试集（私有）变换（24种）：在公开测试集变换基础上，增加多重压缩（JPEG + JPEG 2000）、玻璃模糊，并将不可见水印插入算法增至7种。

数据集结构与获取

训练集

包含约277,000张图像，分为6个分片（每个约50,000张，最后一个除外）。
结构：每个分片目录包含images/文件夹（存放*image_name*.jpg文件）和一个labels.csv文件（映射图像名与标签，0为真实图像，1为生成图像）。
下载地址：
- https://calypso.gml-team.ru:5001/sharing/oLxhMpcLY
- https://huggingface.co/datasets/deepfakesMSU/NTIRE-RobustAIGenDetection-train

验证集

包含10,000张图像（5,000张干净，5,000张失真），不提供标签。
困难部分包含2,500张图像，更接近测试集分布。
下载地址：https://huggingface.co/datasets/deepfakesMSU/NTIRE-RobustAIGenDetection-val

测试集（公开）

包含2,500张图像（1,250张干净，1,250张失真），不提供标签。
下载地址：https://huggingface.co/datasets/deepfakesMSU/NTIRE-RobustAIGenDetection-test

辅助数据

变换脚本：基础失真流程脚本可从 https://drive.google.com/file/d/1oGr--PUOd11xy0ayYB6p2Mgg67n6eJPc/view?usp=sharing 获取。
玩具数据集：用于帮助参与者熟悉数据结构和提交格式，不反映训练数据分布。下载地址：https://drive.google.com/file/d/1d5m9tBDaiZ6rYuv7ZnR139D4eQPSfwYR/view?usp=drive_link

评估指标

主要指标：鲁棒ROC AUC。在所有图像经过变换后，使用标签（0/1）和提交的分数计算单个ROC AUC，用于衡量检测器在不同阈值下的全局判别能力以及对后处理的鲁棒性。
次要指标：干净ROC AUC。在所有图像未经过变换的情况下，使用标签（0/1）和提交的分数计算单个ROC AUC，用于衡量检测器在不同阈值下的全局判别能力，不评估对后处理的鲁棒性。

组织方

莫斯科国立大学（MSU）
维尔茨堡大学（德国）
深圳北理莫斯科大学（SMBU）
主要联系人：Aleksandr Gushchin (alexanterg@gmail.com)

引用

若使用本数据集，请引用以下论文：

@inproceedings{ntire26aigendet, title={{ NTIRE 2026 Challenge on Robust AI-Generated Image Detection in the Wild }}, author={ Gushchin, Aleksandr and Abud, Khaled and Shumitskaya, Ekaterina and Filippov, Artem and Bychkov, Georgii and Lavrushkin, Sergey and Erofeev, Mikhail and Antsiferova, Anastasia and Chen, Changsheng and Tan, Shunquan and Timofte, Radu and Vatolin, Dmitriy and others }, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在人工智能生成内容检测领域，面对合成图像与真实图像日益难以区分的挑战，NTIRE 2026 Robust AI-Generated Image Detection in the Wild数据集的构建体现了严谨的工程化设计。该数据集通过整合来自20种主流文本到图像生成模型合成的图像，并与真实图像按比例混合，形成了约27.7万张图像的训练集。构建过程中，特别引入了涵盖高斯模糊、JPEG压缩、色彩抖动等12种基础图像变换的失真管道，以模拟现实世界中图像经历的各种后处理操作，从而为模型训练提供了丰富的鲁棒性测试环境。

特点

该数据集的核心特点在于其多层次的结构设计与高难度的评估基准。数据集不仅划分了训练、验证和测试集，还专门设置了验证困难子集与公开及私有测试集，每个子集在生成模型和图像变换类型上均存在差异，旨在系统评估检测器对未知生成器及复杂后处理的泛化能力。其采用的评估指标以鲁棒ROC AUC为主，强调模型在经受变换后仍能保持稳定判别性能，这直接呼应了现实场景中对检测器鲁棒性的严苛要求。

使用方法

为便于研究者使用，数据集提供了清晰的数据划分与访问方式。训练数据以分片形式组织，并附有PyTorch Dataset类示例代码，方便用户快速加载与迭代。验证集与测试集则不提供真实标签，要求参与者提交模型对每张图像的预测分数进行在线评估，以此模拟实际检测任务中的未知环境。参与者可通过官方提供的失真管道脚本复现或扩展图像变换，从而深入探究检测方法在不同扰动下的性能表现。

背景与挑战

背景概述

随着文本到图像生成模型的飞速发展，合成图像在视觉质量上已与真实照片高度接近，这为数字内容的真实性验证、取证分析及安全监管带来了严峻考验。NTIRE 2026 Robust AI-Generated Image Detection in the Wild 数据集由莫斯科国立大学、维尔茨堡大学及深圳北理莫斯科大学等机构的研究团队联合构建，旨在应对生成式人工智能时代下的图像真伪鉴别难题。该数据集聚焦于在开放环境下对经过多种后处理变换的AI生成图像进行鲁棒检测，其核心研究问题在于提升检测模型对未知生成器及复杂图像变换的泛化能力与稳健性。作为NTIRE 2026挑战赛的重要组成部分，该数据集通过大规模、多模型、多变换的样本构建，为计算机视觉与多媒体取证领域提供了关键的基准测试资源，推动了鲁棒检测算法的发展与评估。

当前挑战

该数据集致力于解决开放环境中AI生成图像检测的鲁棒性问题，其核心挑战在于模型需在多种后处理变换下保持高精度判别能力。具体而言，检测算法必须应对图像经过裁剪、压缩、模糊、色彩调整等常见操作后特征衰减或畸变带来的识别困难，同时还需泛化至训练未见过的生成模型，避免过拟合特定生成器痕迹。在数据构建过程中，挑战体现在需平衡真实与生成图像的比例，涵盖多样化的生成模型与变换类型，并模拟真实世界中的复杂干扰，例如多重压缩、水印攻击及神经图像压缩等，以确保数据集能够全面反映实际应用场景的复杂性。

常用场景

经典使用场景

在数字媒体取证与人工智能安全领域，NTIRE 2026 Robust AI-Generated Image Detection in the Wild数据集被广泛用于评估和提升AI生成图像检测模型的鲁棒性。该数据集通过模拟真实世界中的图像后处理操作，如裁剪、压缩、模糊等，为研究者提供了一个标准化的测试平台，以验证检测算法在复杂变换下的泛化能力。其经典使用场景包括在计算机视觉竞赛中作为基准数据集，驱动团队开发能够抵御多种图像扰动的先进检测方法，从而推动该领域的技术边界。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在多模态特征融合、对抗性训练以及域自适应检测框架的开发上。例如，部分团队利用该数据集的丰富变换，提出了基于注意力机制的鲁棒特征提取网络，以区分真实与合成图像的细微伪影。另一些工作则专注于设计对抗性样本增强策略，提升模型对未知生成器的泛化性能。这些成果不仅在NTIRE竞赛中取得了领先排名，也为后续的AI生成内容检测研究奠定了坚实的算法基础。

数据集最近研究