five

TIGAS_dataset

收藏
Hugging Face2025-12-21 更新2025-12-22 收录
下载链接:
https://huggingface.co/datasets/H1merka/TIGAS_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TIGAS数据集是一个大规模的真实和AI生成图像集合,专为训练和评估AI生成图像检测模型设计。它包含142,902张来自不同来源的图像,包括最先进的生成模型。数据集支持二元分类任务(真实图像标记为0,AI生成/伪造图像标记为1),涵盖了19种不同的图像来源,包括GAN和扩散模型。数据集分为训练集和测试集,训练集包含128,776张图像,测试集包含14,126张图像。数据集结构清晰,提供了详细的统计信息和加载示例,适用于PyTorch和标准机器学习流程。
创建时间:
2025-12-07
原始信息汇总

TIGAS 数据集概述

数据集基本信息

  • 数据集名称:TIGAS Dataset
  • 发布者:Morgenshtern, Dmitrij
  • 发布年份:2025
  • 发布平台:HuggingFace
  • 数据集地址:https://huggingface.co/datasets/H1merka/TIGAS_dataset
  • 许可证:MIT License
  • 任务类别:图像分类
  • 主要语言:英语
  • 数据规模:100K<n<1M

数据集核心描述

TIGAS 数据集是一个用于训练和评估AI生成图像检测模型的大规模真实图像与AI生成图像集合。该数据集包含 142,902 张图像,涵盖多种先进的生成模型。

关键特性

  • 任务类型:二分类(真实图像 vs AI生成图像)
  • 标签定义0 代表真实/自然图像,1 代表AI生成/伪造图像
  • 数据来源多样性:包含19种不同的图像来源,包括生成对抗网络和扩散模型
  • 数据平衡性:整体数据集中约53.7%为真实图像,46.3%为伪造图像
  • 标注格式:CSV格式,包含图像路径和标签
  • 兼容性:兼容PyTorch和标准机器学习流程

数据集统计信息

整体数据分布

数据划分 图像总数 真实图像 (label=0) 伪造图像 (label=1) 真实图像占比
训练集 128,776 69,772 59,004 54.2%
测试集 14,126 7,037 7,089 49.8%
总计 142,902 76,809 66,093 53.7%

图像来源(训练集)

来源 图像数量 类型 描述
art002_4 10,986 混合 艺术图像子集4
art002_1 10,801 混合 艺术图像子集1
VQDM 9,518 生成 向量量化扩散模型
sd14 9,517 生成 Stable Diffusion 1.4
Midjourney 9,516 生成 Midjourney AI
Glide 9,513 生成 OpenAI GLIDE
wuk 9,510 混合 混合来源图像
art002_3 8,295 混合 艺术图像子集3
gaugan 7,992 生成 NVIDIA GauGAN
art002_2 6,911 混合 艺术图像子集2
sd15_1 6,353 生成 Stable Diffusion 1.5 子集1
sd15_2 6,349 生成 Stable Diffusion 1.5 子集2
art001 5,966 混合 艺术图像
ADM 4,756 混合 消融扩散模型 (ImageNet)
biggan 3,200 生成 BigGAN
stargan 3,198 生成 StarGAN (人脸操纵)
sd_xl 3,196 生成 Stable Diffusion XL
face 1,600 混合 人脸图像
DALLE2 生成 DALL-E 2 (仅出现在子集中)

图像格式分布(训练集)

格式 数量 百分比
PNG 48,130 37.4%
JPG 44,414 34.5%
JPEG 34,632 26.9%
jpeg 1,600 1.2%

数据集结构

TIGAS/ ├── LICENSE ├── README.md ├── train/ │ ├── annotations01.csv # 训练集标注 (128,776 条) │ └── images/ │ ├── ADM/ │ │ ├── 0_real/ # 来自ImageNet的真实图像 │ │ └── 1_fake/ # 由ADM生成的图像 │ ├── art001/ │ │ ├── 0_real/ │ │ └── 1_fake/ │ ├── art002_1/ ... art002_4/ │ ├── biggan/ │ ├── DALLE2/ │ ├── face/ │ ├── gaugan/ │ ├── Glide/ │ ├── Midjourney/ │ ├── sd_xl/ │ ├── sd14/ │ ├── sd15_1/ │ ├── sd15_2/ │ ├── stargan/ │ ├── VQDM/ │ └── wuk/ └── test/ └── annotations01.csv # 测试集标注 (14,126 条)

标注格式

CSV文件包含两列: csv image_path,label

  • image_path:图像文件的相对路径(Windows风格反斜杠)
  • label:二进制标签,0表示真实图像,1表示AI生成图像

包含的生成器模型

扩散模型

  • Stable Diffusion 1.4, 1.5, XL
  • DALL-E 2
  • Midjourney
  • GLIDE
  • ADM (Ablated Diffusion Model)
  • VQDM (Vector Quantized Diffusion Model)

生成对抗网络

  • BigGAN
  • GauGAN
  • StarGAN

使用许可说明

  • 数据集的组织和标注文件遵循MIT许可证。
  • 数据集中的单个图像可能源自或使用具有各自许可条款的各种模型生成:
    • 0_real文件夹中的ImageNet图像受ImageNet使用条款约束。
    • 生成的图像是各自模型(Stable Diffusion、Midjourney等)的输出。

相关资源

  • TIGAS模型:https://huggingface.co/H1merka/TIGAS
  • GitHub仓库:https://github.com/H1merka/TIGAS

版本历史

  • v1.0 (2025年12月):初始版本,包含来自19个来源的142,902张图像
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能生成图像检测领域,TIGAS数据集的构建体现了对数据源多样性与平衡性的严谨考量。该数据集通过整合来自19个不同生成器与混合来源的图像,涵盖了包括扩散模型如Stable Diffusion系列、DALL-E 2、Midjourney,以及生成对抗网络如BigGAN、GauGAN在内的前沿生成技术。构建过程中,从每个来源精心采集图像,并按照约54%真实图像与46%生成图像的比例进行组织,确保了数据分布的平衡性。所有图像均以标准化目录结构存储,并辅以CSV格式的标注文件,清晰记录了图像路径与二元标签,为模型训练提供了结构化的数据基础。
特点
TIGAS数据集的核心特点在于其广泛的覆盖范围与高质量的数据组织。数据集囊括了142,902张图像,不仅数量庞大,而且来源极为多元,几乎涵盖了当前主流的生成式人工智能模型,这为检测模型提供了应对多种生成伪影的挑战。数据以清晰的二元分类任务呈现,标签0代表真实图像,标签1代表AI生成图像,标注准确且一致。此外,数据集提供了训练集与测试集的明确划分,两者在真实与生成图像的比例上保持了良好的平衡,确保了评估的公正性。图像格式以PNG和JPEG为主,兼容性强,便于直接融入现有的计算机视觉处理流程。
使用方法
为便于研究者快速开展实验,TIGAS数据集设计了灵活且标准化的使用接口。用户可通过Python的pandas库直接读取CSV格式的标注文件,利用路径信息加载图像。数据集与PyTorch框架深度兼容,提供了自定义Dataset类的示例代码,用户可轻松集成数据增强、归一化等预处理变换,并构建DataLoader进行批量训练与评估。此外,数据集与同名的TIGAS检测模型紧密关联,支持直接调用该模型对数据集中的图像进行预测与性能验证。这种开箱即用的设计,显著降低了在AI生成图像检测这一前沿领域进行算法开发与比较的门槛。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,特别是生成对抗网络和扩散模型的广泛应用,合成图像的逼真度已达到以假乱真的程度,这对数字内容的真实性与可信度构成了严峻挑战。在此背景下,TIGAS数据集应运而生,由研究人员Dmitrij Morgenshtern于2025年构建并发布,旨在为AI生成图像检测模型提供大规模、多样化的训练与评估资源。该数据集汇集了来自19种不同生成器的图像,涵盖GAN与扩散模型等前沿技术,核心研究问题聚焦于如何有效区分真实图像与AI合成图像,以应对日益增长的深度伪造与虚假信息风险,对计算机视觉与多媒体安全领域具有重要的推动意义。
当前挑战
TIGAS数据集所针对的领域挑战在于,AI生成图像检测任务面临模型泛化能力不足的难题,即检测器需能够识别来自多种未知或新兴生成技术的合成图像,避免过拟合于特定生成器。在数据集构建过程中,挑战主要体现在数据收集与标注的复杂性上,需要整合来自不同来源的真实图像与合成图像,确保数据平衡性与多样性,同时处理图像格式、分辨率及版权许可的异构性问题,以构建一个既全面又可靠的基准数据集。
常用场景
经典使用场景
在计算机视觉与多媒体安全领域,TIGAS数据集为AI生成图像检测模型提供了基准训练与评估平台。该数据集汇集了来自19种不同生成器的真实与合成图像,涵盖GAN和扩散模型等前沿技术,构建了一个大规模的二分类任务框架。研究者通常利用其平衡的样本分布和多样化的图像来源,训练深度神经网络以区分自然图像与AI生成内容,从而推动生成式人工智能检测技术的演进。
实际应用
在实际应用层面,TIGAS数据集支撑了多个关键领域的解决方案。在社交媒体内容审核中,基于该数据集训练的模型能够自动识别AI生成的虚假图像,遏制错误信息传播。新闻机构与事实核查平台利用此类技术验证图像来源,保障新闻报道的真实性。此外,在法律取证与数字身份安全领域,该数据集也有助于开发工具以检测伪造的人脸图像或证件,维护社会诚信体系。
衍生相关工作
围绕TIGAS数据集,学术界衍生了一系列经典研究工作。例如,与其同名的TIGAS模型便是直接基于该数据集训练的高性能检测器,在多项基准测试中表现出色。此外,许多研究利用该数据集的多元生成器特性,探索了针对Stable Diffusion、DALL-E 2等特定模型的专用检测方法,或开发了能够适应新型生成模型的通用检测框架。这些工作共同推动了AI生成内容检测领域向更鲁棒、更可解释的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作