AIGI-Detection-Quality-Paradox

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/Coxy7/AIGI-Detection-Quality-Paradox

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于图像生成的文本提示信息和相应的图像输出，以及生成过程中使用的参数和评估分数。具体特征包括生成器文本、用户ID、原始提示、正提示、负提示、推理步骤数、指导规模、随机种子、调度器、图像尺寸、格式、JPEG质量、色度子采样等。数据集分为训练集，共有大约7.5GB数据和24000个样本。

创建时间：

2025-07-14

原始信息汇总

AIGI-Detection-Quality-Paradox 数据集概述

基本信息

许可证: CC BY 4.0
数据集大小: 14.96 GB
下载大小: 14.92 GB
数据分割:
- fake: 24,000个样本，7.48 GB

数据集内容

AI生成图像 (`fake` 分割)

图像数量: 24,000张
生成器来源:
- SD_2.1 (Stable Diffusion 2.1)
- SDXL_1.0 (Stable Diffusion XL 1.0)
- SD_3 (Stable Diffusion 3)
- PA_alpha (PixArt-α)
- FLUX.1_dev (FLUX.1 [dev])
- Infinity (Infinity)
元数据字段:
- 生成器名称 (generator)
- 唯一标识符 (uid)
- 图像数据 (image)
- 生成提示词 (original_prompt, positive_prompt, negative_prompt)
- 生成参数 (num_inference_steps, guidance_scale, seed, scheduler)
- 图像尺寸 (height, width)
- 压缩信息 (format, jpeg_quality, chroma_subsampling)
- 质量评分 (imagereward_score, hpsv2_score, mps_score)

真实图像元数据 (`real_images_metadata.csv`)

内容: 仅包含元数据（无实际图像）
元数据字段:
- 唯一标识符 (uid)
- 来源数据集 (source_dataset)
- 图像路径/URL (image_path)
- 提示词 (prompt)
- 文本长度 (text_length)
来源数据集:
- SA-1B
- Laion-2B-en-aesthetic
- COCO
- CC3M
- SAM-LLaVA-Captions10M

UID对应关系

每个AI生成图像基于真实图像的描述生成，并继承其uid
所有生成器生成的假图像和真实图像共享相同的4,000个唯一uid

使用示例

python from datasets import load_dataset import pandas as pd

加载AI生成图像

ds = load_dataset("Coxy7/AIGI-Detection-Quality-Paradox", split="fake") df = ds.to_pandas()

下载真实图像元数据

from huggingface_hub import hf_hub_download csv_path = hf_hub_download( repo_id="Coxy7/AIGI-Detection-Quality-Paradox", filename="real_images_metadata.csv", repo_type="dataset" ) real_meta = pd.read_csv(csv_path)

相关论文

标题: Are High-Quality AI-Generated Images More Difficult for Models to Detect?
作者: Yao Xiao等
会议: ICML 2025
论文链接: https://openreview.net/forum?id=sKYdVKE1tS

搜集汇总

数据集介绍

构建方式

在人工智能生成图像检测领域，AIGI-Detection-Quality-Paradox数据集通过系统化采集策略构建而成。研究团队精选了六种主流图像生成模型，包括Stable Diffusion系列和PixArt-α等前沿系统，采用4000组真实图像描述作为统一提示词，确保生成图像的语义一致性。每幅AI生成图像均附带完整的元数据，涵盖生成参数、图像属性和三种权威质量评分，这些评分来自ImageReward、HPS v2和MPS评估体系。数据集特别设计了真实图像与生成图像的UID对应机制，为对比研究提供结构化基础。

特点

该数据集最显著的特征在于其多维度的质量评估体系与完备的生成参数记录。24000幅生成图像均匀分布于六个先进模型，每幅图像不仅包含原始生成提示词，还详细记录了推理步数、引导尺度等关键参数。技术特色体现在三个方面：采用三种互补的图像质量评估算法提供客观评分；保留完整的JPEG压缩参数以研究压缩伪影影响；通过统一UID实现生成图像与真实图像的精确匹配。这种设计为研究图像质量与检测难度之间的悖论关系提供了理想实验平台。

使用方法

研究者可通过HuggingFace数据集库直接加载'fake'分片获取生成图像及元数据，配套的Python接口支持转换为Pandas DataFrame进行统计分析。真实图像元数据以CSV格式单独提供，包含原始数据集的下载路径和经过处理的文本提示。典型应用场景包括：通过分组聚合分析不同生成器的质量得分分布；利用UID关联对比真实与生成图像的视觉特征差异；结合生成参数研究其对检测模型性能的影响。数据集遵循CC BY 4.0协议，确保学术使用的合规性。

背景与挑战

背景概述

AIGI-Detection-Quality-Paradox数据集由Yao Xiao等研究人员于2025年ICML会议上提出，旨在探索高质量AI生成图像是否更难被检测模型识别的核心问题。该数据集汇集了来自六种主流AI图像生成器的24000张合成图像，每张图像均附有详尽的生成参数与多维度质量评分，为AI生成图像检测与质量评估研究提供了重要基准。研究团队通过对比不同生成器输出的图像特性，揭示了生成质量与检测难度之间的潜在悖论，这一发现对数字内容真实性认证和生成模型安全性评估具有深远影响。

当前挑战

该数据集面临的双重挑战在于：在领域问题层面，随着生成模型输出质量的不断提升，传统检测方法对高美学评分图像的识别准确率显著下降，这种质量-检测负相关现象对现有检测范式提出了根本性质疑；在构建技术层面，研究者需平衡多生成器参数配置的差异性，确保跨模型比较的公平性，同时精确量化主观美学评价与客观检测指标间的复杂关联，这些因素使得数据集标注与验证过程极具挑战性。

常用场景

经典使用场景

在生成式人工智能迅猛发展的背景下，AIGI-Detection-Quality-Paradox数据集为研究者提供了系统评估AI生成图像检测模型性能的基准平台。该数据集整合了来自六种主流生成器的24000幅高质量合成图像，每幅图像均附有详尽的生成参数和三种权威质量评分，特别适合用于探究图像美学质量与检测难度之间的关联性。通过标准化实验环境，研究人员能够横向比较不同检测算法在面对多源生成图像时的鲁棒性表现。

衍生相关工作

该数据集已催生多项前沿研究，包括基于质量感知的元学习检测框架、生成器指纹识别技术，以及跨模型泛化性评估体系。部分研究团队利用其多层次标注特性，开发了融合语义分析与纹理特征的混合检测模型。数据集构建方法更被后续工作借鉴，推动了多模态生成内容检测基准的标准化进程。

数据集最近研究