NeXT-IMDL
收藏arXiv2025-12-29 更新2025-12-31 收录
下载链接:
https://github.com/JoeLeelyf/NeXT-IMDL
下载链接
链接失效反馈官方服务:
资源简介:
NeXT-IMDL是由清华大学团队构建的大规模诊断性基准数据集,旨在系统评估下一代图像篡改检测与定位模型的泛化能力。该数据集包含55.8万样本,覆盖32种主流生成模型(如Stable Diffusion、FLUX及商业工具PS等)创建的篡改内容,通过掩码、文本和参考图像等多模态引导条件生成。数据来源包括COCO等公开图像库,采用四维度分类框架(编辑模型、篡改类型、语义标签、篡改粒度)构建,重点解决现有检测方法在跨域场景中的脆弱性问题,为AI生成内容安全领域提供关键评测工具。
NeXT-IMDL is a large-scale diagnostic benchmark dataset developed by the Tsinghua University team, which aims to systematically evaluate the generalization capabilities of next-generation image forgery detection and localization models. The dataset contains 558,000 samples, covering tampered contents created by 32 mainstream generative models (e.g., Stable Diffusion, FLUX, and commercial tools such as Photoshop (PS)), and is constructed via multi-modal guided conditional generation using masks, text prompts and reference images. The dataset is sourced from public image repositories including COCO, and is built on a four-dimensional classification framework encompassing editing model, forgery type, semantic label, and tampering granularity. It primarily addresses the vulnerability of existing detection methods in cross-domain scenarios, serving as a critical evaluation tool for the field of AI-generated content security.
提供机构:
清华大学·自动化系
创建时间:
2025-12-29
原始信息汇总
NeXT-IMDL 数据集概述
数据集名称
NeXT-IMDL: Build Benchmark for NeXT-Generation Image Manipulation Detection & Localization
核心目标
构建一个用于诊断和评估下一代图像篡改检测与定位(IMDL)模型泛化能力的大规模基准。
背景与动机
- 用户友好型图像编辑模型的普及和滥用风险,催生了对泛化性强、与时俱进的IMDL方法的迫切需求。
- 当前IMDL研究通常采用跨数据集评估(在一个基准上训练,在其他基准上测试),但这种简化的评估方式掩盖了现有方法在处理多样化AI生成内容时的脆弱性,导致对进展的误导性印象。
数据集设计
NeXT-IMDL 基于四个基本轴对基于AIGC(AI生成内容)的篡改操作进行分类:
- 编辑模型
- 篡改类型
- 内容语义
- 伪造粒度
基于此分类,NeXT-IMDL 实现了五种严格的跨维度评估协议。
实验发现
对11个代表性模型进行的广泛实验揭示了一个关键发现:这些模型在原始设置下表现良好,但在本数据集设计的、模拟真实世界各种泛化场景的评估协议下,表现出系统性失败和显著的性能下降。
意义与贡献
通过提供此诊断工具包和新发现,旨在推动构建真正鲁棒的下一代IMDL模型的开发。
相关链接
- arXiv论文: https://arxiv.org/abs/
- Hugging Face数据集: https://huggingface.co/datasets/JoeLeelyf/NeXT-IMDL
搜集汇总
数据集介绍

构建方式
在图像篡改检测与定位领域,随着生成式图像编辑技术的迅猛发展,构建具有系统多样性的基准数据集成为评估模型泛化能力的关键。NeXT-IMDL数据集的构建遵循结构化、多维度多样性的原则,通过整合32种不同的图像编辑工具,涵盖学术前沿模型与商业应用,并基于四种视觉语言模型生成多样化的编辑意图。该数据集从公开数据源采集原始图像,利用LangSAM生成精确的区域掩码,并通过自动化与人工双重过滤机制,最终生成了55.8万高质量篡改样本,确保了数据在编辑模型、篡改类型、语义内容与篡改粒度四个维度上的广泛覆盖。
特点
NeXT-IMDL数据集的核心特点在于其诊断性评估框架与系统化的多样性设计。该数据集首次将生成式篡改检测任务解耦为四个关键维度:跨编辑模型、跨篡改类型、跨语义标签与跨篡改粒度,并据此设计了五种严格的跨维度评估协议。其样本覆盖了移除、替换、添加及无文本编辑四种篡改类型,支持掩码、文本及参考图像等多种引导条件,且在语义类别与篡改面积上呈现广泛分布。这种结构化多样性使得该数据集能够深入揭示现有检测模型在真实复杂场景中的泛化瓶颈,超越了传统数据集的简单规模累积。
使用方法
NeXT-IMDL数据集主要服务于下一代图像篡改检测与定位模型的开发与评估。研究人员可利用其提供的训练、验证与测试划分,在五种诊断性协议下系统检验模型的泛化性能。具体而言,用户可遵循跨编辑模型、跨篡改类型、跨语义标签、跨篡改粒度及面向真实场景的协议,分别评估模型对未知编辑工具、篡改操作、语义内容、篡改尺度及商业篡改技术的适应能力。该数据集支持像素级定位与图像级检测任务,其丰富的元数据与标准化评估流程为探索鲁棒、可泛化的检测算法提供了坚实基础。
背景与挑战
背景概述
随着用户友好型图像编辑模型的普及与滥用风险加剧,图像篡改检测与定位领域对具备强泛化能力的前沿方法需求日益迫切。清华大学自动化系的研究团队于2025年提出了NeXT-IMDL数据集,旨在系统诊断当前检测模型在应对多样化AI生成内容时的泛化边界。该数据集围绕生成式编辑的四个核心维度——编辑模型、篡改类型、内容语义与篡改粒度——构建了大规模、结构化的篡改样本库,涵盖了32种编辑工具、4种篡改类型及丰富的语义类别,共计55.8万对高质量样本。NeXT-IMDL不仅推动了图像篡改检测领域向更严谨的评估范式演进,也为构建下一代鲁棒检测模型提供了关键基准。
当前挑战
NeXT-IMDL致力于解决生成式图像篡改检测与定位任务中的核心挑战。在领域层面,现有模型常陷入“基准幻觉”,即在单一数据集上表现优异,却难以泛化至未知的编辑模型、篡改类型或语义场景,揭示了模型对训练数据特定模式的过拟合问题。构建过程中,研究团队面临多重挑战:需系统整合多源生成模型以覆盖技术多样性,确保篡改痕迹的异质性;需通过视觉语言模型与自动化流程生成大规模、高质量的编辑意图与掩码,同时避免引入语义偏差;还需设计严格的跨维度评估协议,以解耦并量化模型在不同泛化场景下的脆弱性。这些挑战共同指向了开发真正鲁棒、可泛化的篡改检测系统的核心难点。
常用场景
经典使用场景
在图像篡改检测与定位研究领域,NeXT-IMDL数据集作为新一代诊断性基准,其经典使用场景在于系统评估模型在多样化生成式篡改下的泛化能力。该数据集通过构建涵盖32种编辑工具、4种篡改类型、多语义类别及不同篡改粒度的550k样本,为研究者提供了跨编辑模型、跨篡改类型、跨语义标签和跨篡改粒度的五维评估协议。这些协议模拟了真实世界中模型需应对的未知篡改技术、新兴生成架构及多尺度篡改挑战,使得NeXT-IMDL成为检验现有检测器鲁棒性的关键试验场。
实际应用
在实际应用层面,NeXT-IMDL为社交媒体内容审核、数字证据鉴定和新闻真实性核查等领域提供了关键技术支持。其构建的多样化篡改样本库,涵盖了从学术模型到商业工具(如Photoshop、GPT-Image)的广泛编辑手段,能够有效模拟网络环境中可能出现的各类AI生成篡改。基于该数据集的评估协议可帮助开发者在部署前识别检测系统的潜在失败模式,例如对特定语义类别或小尺度篡改的盲区,从而提升实际应用中的可靠性和适应性。
衍生相关工作
NeXT-IMDL的发布催生了一系列围绕生成式篡改检测泛化能力的研究。其揭示的“语义脆弱性”和“粒度敏感性”启发了对语义无关特征提取器的探索,而发现的“去除篡改通用供体效应”为预训练策略提供了新方向。此外,数据集中MaskCLIP模型展现的基础模型融合优势,推动了基于CLIP、MAE等多模态预训练模型的检测架构创新。这些衍生工作共同促进了下一代篡改检测模型向更强大泛化能力和更精细定位精度的发展。
以上内容由遇见数据集搜集并总结生成



