TIGAS_dataset
收藏TIGAS 数据集概述
数据集基本信息
- 数据集名称:TIGAS Dataset
- 发布者:Morgenshtern, Dmitrij
- 发布年份:2025
- 发布平台:HuggingFace
- 数据集地址:https://huggingface.co/datasets/H1merka/TIGAS_dataset
- 许可证:MIT License
- 任务类别:图像分类
- 主要语言:英语
- 数据规模:100K<n<1M
数据集核心描述
TIGAS 数据集是一个用于训练和评估AI生成图像检测模型的大规模真实图像与AI生成图像集合。该数据集包含 142,902 张图像,涵盖多种先进的生成模型。
关键特性
- 任务类型:二分类(真实图像 vs AI生成图像)
- 标签定义:
0代表真实/自然图像,1代表AI生成/伪造图像 - 数据来源多样性:包含19种不同的图像来源,包括生成对抗网络和扩散模型
- 数据平衡性:整体数据集中约53.7%为真实图像,46.3%为伪造图像
- 标注格式:CSV格式,包含图像路径和标签
- 兼容性:兼容PyTorch和标准机器学习流程
数据集统计信息
整体数据分布
| 数据划分 | 图像总数 | 真实图像 (label=0) | 伪造图像 (label=1) | 真实图像占比 |
|---|---|---|---|---|
| 训练集 | 128,776 | 69,772 | 59,004 | 54.2% |
| 测试集 | 14,126 | 7,037 | 7,089 | 49.8% |
| 总计 | 142,902 | 76,809 | 66,093 | 53.7% |
图像来源(训练集)
| 来源 | 图像数量 | 类型 | 描述 |
|---|---|---|---|
art002_4 |
10,986 | 混合 | 艺术图像子集4 |
art002_1 |
10,801 | 混合 | 艺术图像子集1 |
VQDM |
9,518 | 生成 | 向量量化扩散模型 |
sd14 |
9,517 | 生成 | Stable Diffusion 1.4 |
Midjourney |
9,516 | 生成 | Midjourney AI |
Glide |
9,513 | 生成 | OpenAI GLIDE |
wuk |
9,510 | 混合 | 混合来源图像 |
art002_3 |
8,295 | 混合 | 艺术图像子集3 |
gaugan |
7,992 | 生成 | NVIDIA GauGAN |
art002_2 |
6,911 | 混合 | 艺术图像子集2 |
sd15_1 |
6,353 | 生成 | Stable Diffusion 1.5 子集1 |
sd15_2 |
6,349 | 生成 | Stable Diffusion 1.5 子集2 |
art001 |
5,966 | 混合 | 艺术图像 |
ADM |
4,756 | 混合 | 消融扩散模型 (ImageNet) |
biggan |
3,200 | 生成 | BigGAN |
stargan |
3,198 | 生成 | StarGAN (人脸操纵) |
sd_xl |
3,196 | 生成 | Stable Diffusion XL |
face |
1,600 | 混合 | 人脸图像 |
DALLE2 |
— | 生成 | DALL-E 2 (仅出现在子集中) |
图像格式分布(训练集)
| 格式 | 数量 | 百分比 |
|---|---|---|
| PNG | 48,130 | 37.4% |
| JPG | 44,414 | 34.5% |
| JPEG | 34,632 | 26.9% |
| jpeg | 1,600 | 1.2% |
数据集结构
TIGAS/ ├── LICENSE ├── README.md ├── train/ │ ├── annotations01.csv # 训练集标注 (128,776 条) │ └── images/ │ ├── ADM/ │ │ ├── 0_real/ # 来自ImageNet的真实图像 │ │ └── 1_fake/ # 由ADM生成的图像 │ ├── art001/ │ │ ├── 0_real/ │ │ └── 1_fake/ │ ├── art002_1/ ... art002_4/ │ ├── biggan/ │ ├── DALLE2/ │ ├── face/ │ ├── gaugan/ │ ├── Glide/ │ ├── Midjourney/ │ ├── sd_xl/ │ ├── sd14/ │ ├── sd15_1/ │ ├── sd15_2/ │ ├── stargan/ │ ├── VQDM/ │ └── wuk/ └── test/ └── annotations01.csv # 测试集标注 (14,126 条)
标注格式
CSV文件包含两列: csv image_path,label
- image_path:图像文件的相对路径(Windows风格反斜杠)
- label:二进制标签,
0表示真实图像,1表示AI生成图像
包含的生成器模型
扩散模型
- Stable Diffusion 1.4, 1.5, XL
- DALL-E 2
- Midjourney
- GLIDE
- ADM (Ablated Diffusion Model)
- VQDM (Vector Quantized Diffusion Model)
生成对抗网络
- BigGAN
- GauGAN
- StarGAN
使用许可说明
- 数据集的组织和标注文件遵循MIT许可证。
- 数据集中的单个图像可能源自或使用具有各自许可条款的各种模型生成:
0_real文件夹中的ImageNet图像受ImageNet使用条款约束。- 生成的图像是各自模型(Stable Diffusion、Midjourney等)的输出。
相关资源
- TIGAS模型:https://huggingface.co/H1merka/TIGAS
- GitHub仓库:https://github.com/H1merka/TIGAS
版本历史
- v1.0 (2025年12月):初始版本,包含来自19个来源的142,902张图像




