Fake2M

arXiv2023-09-23 更新2024-07-30 收录

下载链接：

https://github.com/Inf-imagine/Sentry

下载链接

链接失效反馈

官方服务：

资源简介：

一个新收集的大规模假图像数据集，用于评估人类和模型对AI生成视觉内容的辨别能力。

A newly collected large-scale fake image dataset for evaluating the ability of humans and models to distinguish AI-generated visual content.

创建时间：

2023-04-26

原始信息汇总

Sentry-Image 数据集概述

数据集描述

Sentry-Image 数据集用于检测AI生成的图像，包含训练、验证和测试数据集。数据集分为图像数据和元数据两部分，分别存储在 ImageData 和 MetaData 文件夹中。

数据下载

数据集可通过以下命令从 huggingface 下载： shell git lfs install git clone https://huggingface.co/datasets/InfImagine/FakeImageDataset

数据组织结构

数据集的目录结构如下：

FakeImageDataset/ ├── ImageData/ │ ├── train/ │ │ ├── IFv1-CC1M/ │ │ ├── SDv15R-CC1M/ │ │ └── stylegan3-80K/ │ └── val/ │ ├── IF-CC95K/ │ ├── Midjourneyv5-5K/ │ ├── SDv15-CC30K/ │ ├── SDv21-CC15K/ │ ├── cogview2-22K/ │ └── stylegan3-60K/ └── MetaData/ ├── train/ │ ├── IF-CC1M.csv │ ├── SDv15R-CC1M.csv │ └── stylegan3-80K.csv └── val/ ├── IF-CC95K.csv ├── Midjourneyv5-5K.csv ├── SDv15-CC30K.csv ├── SDv21-CC15K.csv ├── cogview2-22K.csv ├── stylegan3-60K.csv └── stylegan3-80K.csv

训练数据集 (Fake2M)

数据集	生成器	数量	分辨率	图像数据路径	元数据路径
SD-V1.5Real-dpms-25	Diffusion	1M	512	ImageData/train/SDv15R-CC1M	MetaData/train/SDv15R-CC1M.csv
IF-V1.0-dpms++-25	Diffusion	1M	256	ImageData/train/IFv1-CC1M	MetaData/train/IF-CC1M.csv
StyleGAN3	GAN	87K	>=512	ImageData/train/stylegan3-80K	MetaData/train/stylegan3-80K.csv

验证数据集 (MPBench)

数据集	生成器	数量	分辨率	图像数据路径	元数据路径
SDv15	Diffusion	30K	512	ImageData/val/SDv15-CC30K	MetaData/val/SDv15-CC30K.csv
SDv21	Diffusion	15K	512	ImageData/val/SDv21-CC15K	MetaData/val/SDv21-CC15K.csv
IF	Diffusion	95K	256	ImageData/val/IF-CC95K	MetaData/val/IF-CC95K.csv
Cogview2	AR	22K	480	ImageData/val/cogview2-22K	MetaData/val/cogview2-22K.csv
StyleGAN3	GAN	60K	>=512	ImageData/val/stylegan3-60K	MetaData/val/stylegan3-60K.csv
Midjourneyv5	-	5K	>=512	ImageData/val/Midjourneyv5-5K	MetaData/val/Midjourneyv5-5K.csv

其他信息

美学质量评分：提供基于 CLIP-IQA 的美学评分，可从 huggingface 下载。
可视化：提供数据集的可视化文件。

维护计划

2023.7：发布训练和验证数据集。
2023.8：发布开放问卷。
2023.9：支持 Stable Diffusion XL 假图像数据集。
2023.9：发布训练和评估代码。
2023.10：支持 Midjourney V5 假图像数据集。
2023.10：发布新的测试数据集。

许可证

该项目基于 Apache-2.0 许可证开源，学术研究可免费使用，商业用途需书面许可。

引用

请在引用时注明以下信息：

@misc{sentry-image-leaderboard, title = {Sentry-Image Leaderboard}, author = {Zeyu Lu, Di Huang, Chunli Zhang, Chengyue Wu, Xihui Liu, Lei Bai, Wanli Ouyang}, year = {2023}, publisher = {InfImagine, Shanghai AI Laboratory}, howpublished = "url{https://github.com/Inf-imagine/Sentry}" } @inproceedings{lu2023seeing, title = {Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images}, author = {Zeyu Lu, Di Huang, Lei Bai, Jingjing Qu, Chengyue Wu, Xihui Liu, Wanli Ouyang}, booktitle = {Advances in Neural Information Processing Systems}, year = {2023}, }

搜集汇总

数据集介绍

构建方式

在人工智能生成图像检测的研究领域，构建高质量数据集是推动算法发展的基石。Fake2M数据集的构建采用了系统化的多源生成策略，整合了当前最先进的图像生成模型。具体而言，该数据集通过文本到图像生成模型，利用CC3M数据集的前100万条描述，分别通过Stable Diffusion v1.5 Realistic Vision V2.0和DeepFloyd IF模型生成了各100万张伪造图像。同时，为了覆盖不同生成架构，数据集还纳入了基于StyleGAN3生成的8.7万张图像，涵盖了FFHQ、AFHQv2和MetFaces等多个特定领域。所有生成过程均采用固定的随机种子和配置参数以确保可复现性，最终构成了总量超过200万张图像的大规模、多源异构数据集。

特点

Fake2M数据集在伪造图像检测领域展现出显著的规模与多样性特征。其核心优势在于囊括了扩散模型、生成对抗网络和自回归模型三大主流生成架构的最新成果，涵盖了从通用场景到特定领域（如人脸、艺术画作）的广泛内容。数据集的图像质量分布经过精心设计，既包含高保真度的逼真图像，也涵盖存在典型缺陷的样本，从而模拟了真实世界中伪造图像的质量谱系。此外，数据集还提供了11个独立的验证集，总计约25.7万张图像，这些验证集由不同的生成模型、采样方法和步数参数构建，为评估模型的泛化能力提供了严谨的基准。

使用方法

该数据集主要服务于伪造图像检测模型的训练与评估。研究人员可采用其提供的多个训练集配置进行模型训练，例如专注于单一生成模型的数据集设置，或融合多种生成源的混合设置。在评估阶段，模型可在MPBench框架下，在涵盖不同生成模型和超参数的11个验证集上进行系统性测试，以全面衡量其在不同生成源上的泛化性能和鲁棒性。同时，数据集配套的HPBench基准为评估人类对AI生成图像的感知能力提供了标准化的测试环境，包含八类图像和详细的判断准则分析，便于开展人机性能对比研究。

背景与挑战

背景概述

随着人工智能生成内容技术的迅猛发展，高保真图像合成模型如Stable Diffusion、Midjourney等已能生成与真实照片难以区分的视觉内容，这引发了社会对图像信息真实性的广泛担忧。在此背景下，上海人工智能实验室联合上海交通大学、悉尼大学及香港大学的研究团队于2023年创建了Fake2M数据集，旨在系统评估人类与AI模型对AI生成图像的感知与鉴别能力。该数据集收录了超过200万张由前沿生成模型合成的图像及对应真实照片，覆盖多种视觉类别，为虚假图像检测研究提供了大规模、多样化的基准资源，并推动了相关领域在信息可信度与安全方面的探索。

当前挑战

Fake2M数据集致力于解决AI生成图像检测这一核心领域问题，其首要挑战在于当前生成模型合成的高质量图像已能显著欺骗人类感知，研究显示人类误判率高达38.7%，这凸显了区分真实与合成视觉内容的艰巨性。在数据集构建过程中，研究团队面临多重挑战：需整合包括扩散模型、生成对抗网络和自回归模型在内的多种先进生成技术，以确保数据多样性；同时，必须筛选并剔除低质量合成样本，以模拟真实场景中用户择优选取的行为；此外，还需平衡不同图像类别与内容类型的分布，避免数据偏差，并确保合成图像在细节、光影、合理性等方面具备足够的检测难度，以支撑鲁棒性模型的训练与评估。

常用场景

经典使用场景

在人工智能生成内容（AIGC）迅猛发展的背景下，Fake2M数据集为评估人类与模型对AI生成图像的感知能力提供了基准平台。该数据集通过整合超过200万张由Stable Diffusion、DeepFloyd IF及StyleGAN3等前沿生成模型合成的图像，并搭配同等规模的真实网络照片，构建了大规模、多样化的训练与验证资源。其经典应用场景在于系统性地评测人类在区分真实与AI生成图像时的认知局限，同时为开发高效的伪造图像检测算法提供数据支撑，推动生成式AI安全性与可信度研究。

解决学术问题

Fake2M数据集致力于解决生成式人工智能领域的关键学术问题，即如何准确识别日益逼真的AI合成图像以防范虚假信息传播。该数据集通过构建涵盖多类别、多生成模型的标准化测试集，量化了人类感知的局限性——实验显示人类误判率高达38.7%，揭示了当前生成技术对视觉信任体系的冲击。同时，数据集支撑的模型评估基准MPBench系统比较了ConvNext、CLIP-ViT等检测架构的性能，为探索跨模型泛化能力、数据多样性影响等核心问题提供了实证基础，推动了鲁棒性检测算法的理论发展。

衍生相关工作

围绕Fake2M数据集衍生的研究推动了伪造检测技术的多维发展。基于其构建的HPBench与MPBench双基准催生了针对跨模型泛化问题的系列工作，如探索CLIP等视觉-语言模型在冻结与微调策略下的检测效能平衡。数据集揭示的生成缺陷（如手部畸变、光影矛盾）激发了改进生成模型一致性的研究分支，促进了对物理规律建模的算法优化。同时，该数据集为长尾分布下的数据增强、模型偏见分析等课题提供了实验场景，延伸至公平性机器学习等交叉领域，形成了从检测到生成再至伦理评估的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集