Defactify_Image_Dataset

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/Rajarshi-Roy-research/Defactify_Image_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AI生成图像真实性数据集是一个高质量的图像及其相关元数据的集合，旨在评估检测和识别人工生成内容的模型。数据集包含了现实世界图像和由知名AI模型（如SD21、SDXL、SD3、DALLE3和Midjourney）生成的图像。每一张图像都经过精心标注，分为两个类别，使得研究者可以处理两个不同的计算机视觉任务：二元真实性/伪造分类和多类生成模型识别。

创建时间：

2025-11-29

原始信息汇总

AI-Generated Image Veracity Dataset 数据集概述

数据集简介

AI-Generated Image Veracity Dataset 是一个高质量的图像及相关元数据集合，专门用于评估检测和识别人工智能生成内容的模型性能。该数据集包含真实世界图像和由主流AI模型生成的图像混合内容，涵盖SD21、SDXL、SD3、DALLE3和Midjourney等生成模型。

支持任务

任务A：二元真实性分类

任务描述：将图像分类为真实或AI生成
输出类别：2类（真实、AI生成）

任务B：AI模型来源识别

任务描述：识别AI生成图像所使用的具体生成模型
输出类别：5类（SD21、SDXL、SD3、DALLE3、Midjourney）

数据特征

数据字段

Caption：字符串类型，图像生成所用的文本提示或真实图像的描述性标题
Image：图像类型，实际图像内容
Label_A：整型，二元真实性分类标签
Label_B：整型，生成来源模型标签

标签定义

Label_A（二元真实性分类）

0：真实图像（非AI生成）
1：AI生成图像

Label_B（模型来源识别）

0：真实图像
1：Stable Diffusion 2.1生成
2：Stable Diffusion XL生成
3：Stable Diffusion 3生成
4：DALL-E 3生成
5：Midjourney生成

数据划分

划分类型	实例数量	用途建议
训练集	42000	模型训练
验证集	9000	超参数调优
测试集	45000	最终评估

技术规格

语言：所有描述文本和标题均为英文
下载大小：7508933957字节
数据集大小：6494581450字节
数据格式：标准数据集格式，包含图像和文本标注

搜集汇总

数据集介绍

构建方式

在人工智能生成内容检测领域，该数据集通过系统整合真实世界图像与五大主流AI模型生成的图像构建而成。构建过程采用严谨的数据采集策略，涵盖Stable Diffusion 2.1、SDXL、SD3、DALL-E 3和Midjourney等代表性生成模型，每个样本均配备原始生成提示词与双重标注体系。数据划分遵循机器学习标准规范，训练集、验证集与测试集分别包含42000、9000和45000个样本，确保模型训练与评估的科学性。

使用方法

研究者可通过标准数据加载接口直接获取图像与标签数据，利用训练集开发检测模型并在验证集进行超参数优化。测试集专用于模型性能的最终评估，支持两种核心任务的基准测试：基于Label_A的二分类真伪判别，以及通过Label_B实现的多类别生成模型溯源。数据字段包含可直接处理的图像对象与结构化标签，适用于端到端的深度学习 pipeline 构建。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，深度伪造图像对数字媒体可信度构成严峻威胁。Defactify_Image_Dataset应运而生，由计算机视觉研究机构于2024年构建，旨在建立检测人工智能生成内容的基准数据集。该数据集汇集真实图像与五大主流生成模型（SD21/SDXL/SD3/DALLE3/Midjourney）的合成图像，通过双重标注机制同时支持图像真实性二分类与生成模型溯源任务，为数字取证领域提供关键研究基础。

当前挑战

在数字媒体取证领域，生成模型迭代产生的视觉特征漂移现象持续加剧检测难度。数据集构建过程中面临多重挑战：需确保生成图像与真实图像在语义内容上的严格对齐，克服不同生成模型输出图像的风格异质性，同时维持生成提示词与视觉内容的高质量关联。此外，随着扩散模型生成质量的不断提升，模型间视觉伪影差异逐渐缩小，对细粒度特征提取算法提出更高要求。

常用场景

经典使用场景

在数字媒体真实性验证领域，该数据集为图像真伪鉴别提供了关键基准。其核心应用聚焦于训练深度学习模型执行双重任务：通过二元分类区分真实图像与AI生成内容，并进一步溯源至SD21、SDXL等五大主流生成模型。这种设计使得研究者能够系统评估模型在复杂多媒体环境中的泛化能力，为数字取证技术奠定数据基础。

解决学术问题

该数据集有效应对了生成式人工智能引发的学术挑战。通过构建覆盖多模态生成模型的大规模样本库，解决了传统检测方法在跨模型泛化性方面的局限。其精细标注机制不仅推动了数字内容溯源理论的发展，更为多媒体信息安全、深度学习可解释性等前沿课题提供了实证研究平台，显著提升了学术社区对合成媒体特征的认知深度。

实际应用

面向日益严峻的虚假信息传播现状，该数据集在社交媒体内容审核、新闻机构事实核查等场景展现重要价值。司法鉴定机构可借助其训练的模型追溯伪造图像来源，教育机构则利用其构建数字素养培训系统。在金融风控领域，该数据支撑的检测技术能有效识别伪造证件与交易凭证，切实维护数字经济社会秩序。

数据集最近研究