AI-GenBench
收藏arXiv2025-04-29 更新2025-05-01 收录
下载链接:
https://github.com/MI-BioLab/AI-GenBench
下载链接
链接失效反馈官方服务:
资源简介:
AI-GenBench是一个用于检测真实场景中AI生成图像的新基准。它引入了一个时间评估框架:在已知生成器上训练检测器,并在新生成器上测试它们,就像在现实场景中一样。它还解决了当前基准的关键限制,并为研究人员和事实核查者提供了一个宝贵的工具。该基准包括由36个不同的生成器生成的图像。
AI-GenBench is a novel benchmark for detecting AI-generated images in real-world scenarios. It proposes a temporal evaluation framework, where detectors are trained on established generative models and tested on newly released ones, mirroring real-world deployment scenarios. It also addresses the critical limitations of current benchmarks, serving as a valuable tool for researchers and fact-checkers. This benchmark includes images generated by 36 distinct generative models.
提供机构:
Dipartimento di Informatica - Scienza e Ingegneria (DISI), Universit`a di Bologna, Cesena, Italy; Dipartimento di Ingegneria Elettrica e delle Tecnologie dell’Informazione (DIETI), Universit`a degli Studi di Napoli Federico II, Naples, Italy; IdentifAI, Italy
创建时间:
2025-04-29
原始信息汇总
AI-GenBench 数据集概述
基本信息
- 数据集名称: AI-GenBench
- 简介: 一个新的持续进行的基准测试,专注于AI生成图像检测领域。
当前状态
- 开发状态: 即将发布(Coming soon!)
搜集汇总
数据集介绍

构建方式
AI-GenBench数据集通过整合36种不同的生成模型构建而成,涵盖了2017年至2024年间发布的主要生成技术,包括GANs和扩散模型等。数据集的构建采用了时间滑动窗口的方法,将生成模型按发布时间顺序划分为9个窗口,每个窗口包含4种模型。训练集和评估集按80%-20%的比例划分,每种生成模型提供4,000张训练图像和1,000张评估图像,同时包含等量的真实图像以保持数据平衡。数据集还采用了标准化的数据增强策略,确保模型在训练过程中接触到多样化的图像变形,从而提升泛化能力。
特点
AI-GenBench数据集以其时间动态性和多样性著称,涵盖了从早期GANs到现代扩散模型的广泛生成技术,反映了生成AI技术的演进历程。数据集特别注重高质量和真实感的图像内容,排除了非真实感的图像如卡通或低分辨率图像,以确保评估的实用性。其独特的时间滑动窗口设计使研究者能够评估模型在面对新兴生成技术时的泛化能力,特别是在从已知模型过渡到未知模型时的表现。此外,数据集还提供了标准化的评估协议和工具,支持研究者进行公平且可重复的实验比较。
使用方法
使用AI-GenBench数据集时,研究者需遵循其时间滑动窗口的评估框架。首先,模型在早期时间窗口的生成模型和真实图像上进行训练,随后在后续窗口的未知生成模型上进行测试,以评估其泛化能力。数据集提供了三种评估场景:Next Period(仅测试下一时间窗口的模型)、Past Period(测试已训练过的模型)和Whole Period(综合测试)。研究者可以自定义训练时的数据增强策略,但需遵循固定的增强倍数限制以确保公平性。评估指标主要采用AUROC和准确率,特别关注模型在Next Period场景下的表现。数据集还提供了预训练的基线模型和代码库,便于快速实现和比较新方法。
背景与挑战
背景概述
AI-GenBench是由意大利博洛尼亚大学、那不勒斯费德里科二世大学以及IdentifAI机构的研究团队于2025年提出的一个持续更新的基准测试数据集,旨在解决生成式AI图像检测领域的核心问题。随着生成式AI技术的快速发展,高质量合成图像的泛滥给媒体真实性带来了严峻挑战。该数据集通过引入时间评估框架,模拟了现实场景中检测模型需要不断适应新型生成器的动态过程,涵盖了从GANs到扩散模型等36种生成器产生的图像,弥补了现有基准测试在数据划分、评估协议和计算资源需求等方面的局限性。AI-GenBench的建立为研究人员和事实核查者提供了标准化工具,对维护数字内容真实性具有重要意义。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,生成式AI技术的快速迭代导致检测模型面临严峻的泛化性考验,特别是当新型架构(如从GANs到扩散模型的转变)出现时,现有检测方法的性能会出现显著下降;在构建过程中,研究团队需要克服多源数据整合的复杂性,确保来自不同生成器和真实图像库(如ImageNet、COCO等)的数据在格式和质量上保持一致,同时还要设计合理的时间滑动窗口机制来模拟技术演进的时序特征。此外,平衡计算效率与模型性能也是重要挑战,需确保基准测试既能在有限硬件资源下运行,又能有效评估检测方法的实际应用潜力。
常用场景
经典使用场景
AI-GenBench作为一项专注于AI生成图像检测的基准测试,其经典使用场景主要围绕对新兴生成模型的泛化能力评估。在计算机视觉领域,随着生成对抗网络(GANs)和扩散模型等技术的快速发展,检测AI生成图像的挑战日益加剧。该数据集通过时间滑动窗口的设计,模拟了现实场景中检测器需不断适应新生成技术的需求,为研究者提供了一个动态评估平台。其核心价值在于能够系统性地测试检测模型在面对历史未见生成器时的表现,例如从GANs到扩散模型的架构跃迁。
解决学术问题
该数据集有效解决了生成图像检测领域的三个关键学术问题:模型泛化性评估的静态局限、跨架构检测的可靠性验证以及计算资源公平性约束。传统基准测试常采用固定数据集划分,难以反映检测器在持续演进的生成技术下的真实性能。AI-GenBench通过时序评估框架,首次实现了对检测方法在技术迭代过程中适应能力的量化分析。其包含36种生成器的设计,覆盖2017至2024年间主流生成技术,为研究社区提供了分析模型在面临技术范式转换(如GAN到扩散模型)时性能衰减的标准化工具。
衍生相关工作
该数据集已衍生出多个重要研究方向,包括基于CLIP和DINOv2等预训练模型的迁移学习检测框架。相关经典工作如Adobe研究院提出的在线检测范式被系统性地扩展,ViT-L/14等视觉Transformer架构在该基准上展现出优异的跨生成器检测能力。在方法学层面,研究者们利用该时序数据集开发了渐进式训练策略,验证了检测器通过历史生成器特征预测新型生成图像的可行性。此外,基于该基准的增强策略研究(如确定性数据增强管道)为提升模型在真实场景的泛化性提供了重要参考。
以上内容由遇见数据集搜集并总结生成



