AI-GenBench|图像生成数据集|图像识别数据集

arXiv2025-04-29 更新2025-05-01 收录

图像生成

图像识别

下载链接：

https://github.com/MI-BioLab/AI-GenBench

下载链接

链接失效反馈

资源简介：

AI-GenBench是一个用于检测真实场景中AI生成图像的新基准。它引入了一个时间评估框架：在已知生成器上训练检测器，并在新生成器上测试它们，就像在现实场景中一样。它还解决了当前基准的关键限制，并为研究人员和事实核查者提供了一个宝贵的工具。该基准包括由36个不同的生成器生成的图像。

提供机构：

Dipartimento di Informatica - Scienza e Ingegneria (DISI), Universit`a di Bologna, Cesena, Italy; Dipartimento di Ingegneria Elettrica e delle Tecnologie dell’Informazione (DIETI), Universit`a degli Studi di Napoli Federico II, Naples, Italy; IdentifAI, Italy

创建时间：

2025-04-29

原始信息汇总

AI-GenBench 数据集概述

基本信息

数据集名称: AI-GenBench
简介: 一个新的持续进行的基准测试，专注于AI生成图像检测领域。

当前状态

开发状态: 即将发布（Coming soon!）

AI搜集汇总

数据集介绍

构建方式

AI-GenBench数据集通过整合36种不同的生成模型构建而成，涵盖了2017年至2024年间发布的主要生成技术，包括GANs和扩散模型等。数据集的构建采用了时间滑动窗口的方法，将生成模型按发布时间顺序划分为9个窗口，每个窗口包含4种模型。训练集和评估集按80%-20%的比例划分，每种生成模型提供4,000张训练图像和1,000张评估图像，同时包含等量的真实图像以保持数据平衡。数据集还采用了标准化的数据增强策略，确保模型在训练过程中接触到多样化的图像变形，从而提升泛化能力。

特点

AI-GenBench数据集以其时间动态性和多样性著称，涵盖了从早期GANs到现代扩散模型的广泛生成技术，反映了生成AI技术的演进历程。数据集特别注重高质量和真实感的图像内容，排除了非真实感的图像如卡通或低分辨率图像，以确保评估的实用性。其独特的时间滑动窗口设计使研究者能够评估模型在面对新兴生成技术时的泛化能力，特别是在从已知模型过渡到未知模型时的表现。此外，数据集还提供了标准化的评估协议和工具，支持研究者进行公平且可重复的实验比较。

使用方法

使用AI-GenBench数据集时，研究者需遵循其时间滑动窗口的评估框架。首先，模型在早期时间窗口的生成模型和真实图像上进行训练，随后在后续窗口的未知生成模型上进行测试，以评估其泛化能力。数据集提供了三种评估场景：Next Period（仅测试下一时间窗口的模型）、Past Period（测试已训练过的模型）和Whole Period（综合测试）。研究者可以自定义训练时的数据增强策略，但需遵循固定的增强倍数限制以确保公平性。评估指标主要采用AUROC和准确率，特别关注模型在Next Period场景下的表现。数据集还提供了预训练的基线模型和代码库，便于快速实现和比较新方法。

背景与挑战

背景概述

AI-GenBench是由意大利博洛尼亚大学、那不勒斯费德里科二世大学以及IdentifAI机构的研究团队于2025年提出的一个持续更新的基准测试数据集，旨在解决生成式AI图像检测领域的核心问题。随着生成式AI技术的快速发展，高质量合成图像的泛滥给媒体真实性带来了严峻挑战。该数据集通过引入时间评估框架，模拟了现实场景中检测模型需要不断适应新型生成器的动态过程，涵盖了从GANs到扩散模型等36种生成器产生的图像，弥补了现有基准测试在数据划分、评估协议和计算资源需求等方面的局限性。AI-GenBench的建立为研究人员和事实核查者提供了标准化工具，对维护数字内容真实性具有重要意义。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，生成式AI技术的快速迭代导致检测模型面临严峻的泛化性考验，特别是当新型架构（如从GANs到扩散模型的转变）出现时，现有检测方法的性能会出现显著下降；在构建过程中，研究团队需要克服多源数据整合的复杂性，确保来自不同生成器和真实图像库（如ImageNet、COCO等）的数据在格式和质量上保持一致，同时还要设计合理的时间滑动窗口机制来模拟技术演进的时序特征。此外，平衡计算效率与模型性能也是重要挑战，需确保基准测试既能在有限硬件资源下运行，又能有效评估检测方法的实际应用潜力。

常用场景

经典使用场景

AI-GenBench作为一项专注于AI生成图像检测的基准测试，其经典使用场景主要围绕对新兴生成模型的泛化能力评估。在计算机视觉领域，随着生成对抗网络（GANs）和扩散模型等技术的快速发展，检测AI生成图像的挑战日益加剧。该数据集通过时间滑动窗口的设计，模拟了现实场景中检测器需不断适应新生成技术的需求，为研究者提供了一个动态评估平台。其核心价值在于能够系统性地测试检测模型在面对历史未见生成器时的表现，例如从GANs到扩散模型的架构跃迁。

解决学术问题

该数据集有效解决了生成图像检测领域的三个关键学术问题：模型泛化性评估的静态局限、跨架构检测的可靠性验证以及计算资源公平性约束。传统基准测试常采用固定数据集划分，难以反映检测器在持续演进的生成技术下的真实性能。AI-GenBench通过时序评估框架，首次实现了对检测方法在技术迭代过程中适应能力的量化分析。其包含36种生成器的设计，覆盖2017至2024年间主流生成技术，为研究社区提供了分析模型在面临技术范式转换（如GAN到扩散模型）时性能衰减的标准化工具。

衍生相关工作

该数据集已衍生出多个重要研究方向，包括基于CLIP和DINOv2等预训练模型的迁移学习检测框架。相关经典工作如Adobe研究院提出的在线检测范式被系统性地扩展，ViT-L/14等视觉Transformer架构在该基准上展现出优异的跨生成器检测能力。在方法学层面，研究者们利用该时序数据集开发了渐进式训练策略，验证了检测器通过历史生成器特征预测新型生成图像的可行性。此外，基于该基准的增强策略研究（如确定性数据增强管道）为提升模型在真实场景的泛化性提供了重要参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录