AIGIBench

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/HorizonTEL/AIGIBench

下载链接

链接失效反馈

官方服务：

资源简介：

AIGIBench官方数据集，用于人工智能生成图像检测研究。包含两种训练数据集设置和25个测试子集，覆盖了多种生成类型和最先进的生成器。数据集还包括从社区和社交媒体爬取的图片，增加了检测的挑战性。

创建时间：

2025-05-02

原始信息汇总

AIGIBench数据集概述

基本信息

许可证: CC-BY-NC-SA-4.0
研究主题: 人工智能生成图像检测
官方数据集: 是

数据集特点

全面的生成类型:
- GAN-based Noise-to-Image Generation
- Diffusion for Text-to-Image Generation
- GANs for Deepfake
- Diffusion for Personalized Generation
- Open-source Platforms
先进的生成器:
- MidjourneyV6
- Stable Diffusion 3
- Imagen
- DALLE3
- InstantID
- FaceSwap
- StyleGAN-XL
未知生成方法:
- 从社区和社交媒体爬取的图片构建数据集CommunityAI & SocialRF

数据集结构

训练集

Setting-I:
- 144K图像
- 生成器: ProGAN
- 对象类别: car, cat, chair, horse
Setting-II:
- 144K图像
- 生成器: SD-v1.4和ProGAN
- 对象类别: car, cat, chair, horse

测试集

测试子集: 25个
测试方向:
- GAN-based Noise-to-Image Generation
- Diffusion for Text-to-Image Generation
- GANs for Deepfake
- Diffusion for Personalized Generation
- Open-source Platforms

文件目录结构

训练集目录

├── train │ ├── car │ │ ├── 0_real │ │ ├── 1_fake │ ├── cat │ │ ├── ... │ ├── chair │ │ ├── ... │ ├── horse │ │ ├── ... │ ├── sdv1.4 │ │ ├── 0_real │ │ ├── 1_fake ├── val │ ├── ... │ │ ├── 0_real │ │ ├── 1_fake │ │ ...

测试集目录

├── test │ ├── ProGAN │ │ ├── 0_real │ │ ├── 1_fake │ ├── R3GAN │ │ ├── ... │ │ ... │ ├── BlendFace │ │ ├── 0_real │ │ ├── 1_fake │ ├── InSwap │ │ ├── ... │ │ ... │ ├── FLUX1-dev │ │ ├── 0_real │ │ ├── 1_fake │ ├── Midjourney-V6 │ │ ├── ... │ │ ... │ ├── BLIP │ │ ├── 0_real │ │ ├── 1_fake │ ├── Infinite-ID │ │ ├── ... │ │ ... │ ├── CommunityAI │ │ ├── 0_real │ │ ├── 1_fake │ ├── SocialRF │ │ ├── ...

搜集汇总

数据集介绍

构建方式

AIGIBench数据集的构建体现了多模态生成技术的全面覆盖，通过整合前沿生成模型与真实场景数据构建双重训练集。Setting-I采用ProGAN生成的14.4万张四类物体图像，Setting-II则融合ProGAN与SD-v1.4的等量生成数据，所有训练样本均来源于ForenSynths和GenImage权威数据集。测试集创新性地从五大技术维度构建，包含25个子集，既涵盖MidjourneyV6、DALLE3等尖端生成器产出，又通过爬取社交媒体图像形成具有现实挑战性的CommunityAI和SocialRF子集。

使用方法

研究者可通过解压数据集文件获取标准目录结构的图像资源，训练阶段可根据需求选择单一ProGAN或混合SD-v1.4的设定。测试时建议采用交叉验证策略，依次评估模型在25个子集上的表现，特别关注CommunityAI等未知源数据的泛化能力。数据目录的树状结构设计便于自动化脚本处理，每个子集的真实/生成标签已通过标准化文件夹命名实现直观区分，为检测算法开发提供即插即用的实验框架。

背景与挑战

背景概述

AIGIBench数据集由Ziqiang Li等研究人员于近期构建，旨在应对人工智能生成图像检测领域的前沿挑战。该数据集由多所知名研究机构联合开发，聚焦于当前生成式人工智能技术快速迭代背景下，图像真伪鉴别这一核心科学问题。作为领域内首个整合GAN、扩散模型及开源平台生成图像的基准测试平台，AIGIBench涵盖了MidjourneyV6、Stable Diffusion 3等12类前沿生成器产生的样本，其创新性地引入社交媒体爬取的CommunityAI和SocialRF子集，为检测模型的泛化能力评估设立了新标准。该数据集的建立显著推动了数字内容真实性认证、深度伪造防御等关键领域的研究进程。

当前挑战

在技术层面，AIGIBench需解决生成模型快速进化带来的概念漂移问题，不同生成范式（如GAN与扩散模型）产生的图像具有显著差异的伪影特征。数据构建过程中，研究团队面临多源数据标准化处理的挑战，需协调ProGAN、SD-v1.4等异构数据源的标注一致性。针对社区爬取图像的真伪验证，需设计特殊的质量控制流程以确保标签可靠性。测试集的25个子集设计反映了实际应用场景的复杂性，要求检测模型同时具备处理传统生成图像与新兴个性化生成内容的能力，这对算法的特征提取和泛化性能提出了极高要求。

常用场景

经典使用场景

在人工智能生成图像检测领域，AIGIBench数据集凭借其多样化的生成类型和前沿的生成器，成为评估检测模型性能的黄金标准。该数据集广泛应用于训练和测试深度学习模型，特别是在跨生成器泛化能力测试中，研究者通过Setting-I和Setting-II两种训练设置，系统验证模型对GAN、扩散模型等不同生成技术的识别效果。

解决学术问题

AIGIBench有效解决了生成图像检测中的关键学术挑战，包括模型泛化性不足和新兴生成技术应对滞后等问题。通过整合MidjourneyV6、Stable Diffusion 3等最新生成器构建的25个测试子集，该数据集为研究者提供了验证检测算法鲁棒性的实验平台，显著推动了数字内容真实性认证领域的方法创新。

实际应用

该数据集在社交媒体内容审核、数字证据鉴定等实际场景中具有重要价值。特别是其包含的CommunityAI和SocialRF子集，模拟了真实网络环境中的未知生成内容，为开发适应开放场景的检测系统提供了关键数据支撑，助力平台应对深度伪造内容传播的治理难题。

数据集最近研究