Treasure

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/ThreeLiu/Treasure

下载链接

链接失效反馈

官方服务：

资源简介：

Treasure是一个用于开放场景下AI生成图像检测的大规模评估数据集，作为Fleet研究的基准配套。该数据集旨在突破传统封闭集基准的局限，支持针对快速进化的生成器的动态适应检测研究。数据集包含64类生成器，其中37类以图像文件形式提供（共185,623张合成图像），27类以README占位符形式指向上游数据源。数据来源包括：研究团队自托管模型生成的图像、商业API输出以及经典第三方发布（如GenImage、WildFake等）。每类合成图像约5000张，与真实图像库形成对比。数据集特别包含基于视觉语言模型的艺术风格标注（CSV格式），支持分布偏移分析。所有图像保持原始格式，未经重新压缩。数据集采用CC BY-NC 4.0许可，仅限非商业用途。适用于AI生成图像检测、生成器溯源、图像取证等研究任务。

Treasure is a large-scale evaluation dataset for AI-generated image detection in open scenarios, serving as a benchmark for Fleet research. It aims to break through the limitations of traditional closed-set benchmarks and supports dynamic adaptation detection research for rapidly evolving generators. The dataset includes 64 types of generators, with 37 types provided as image files (totaling 185,623 synthetic images) and 27 types as README placeholders pointing to upstream data sources. Data sources include: images generated by the research teams self-hosted models, outputs from commercial APIs, and classic third-party releases (such as GenImage, WildFake, etc.). Each type of synthetic image contains approximately 5,000 images, forming a contrast with the real image library. The dataset specifically includes art style annotations (CSV format) based on visual language models, supporting distribution shift analysis. All images maintain their original format without recompression. The dataset is licensed under CC BY-NC 4.0 and is for non-commercial use only. It is suitable for research tasks such as AI-generated image detection, generator tracing, and image forensics.

创建时间：

2026-05-03

原始信息汇总

数据集概述：Treasure

基本信息

数据集名称：Treasure
语言：英语（en）
任务类别：图像分类（image-classification）
标签：AI生成图像检测、合成图像检测、AIGC、图像取证
数据规模：100K < n < 1M
许可证：Creative Commons Attribution-NonCommercial 4.0 International（CC BY-NC 4.0）

数据集描述

Treasure 是 Fleet（少样本高效AI生成图像检测）的配套基准数据集，专为开放世界场景下的AI生成图像（AIGI）检测评估而设计，超越了传统封闭式基准测试。该数据集旨在测试检测器对快速演变的生成器的动态适应能力。

数据集构成

生成器类别：共64个生成器类别，涵盖经典GAN和扩散模型，以及专有商业API（完整基准设计中包含20个闭源引擎）。
图像数量：本仓库发布包含37个生成器目录的实际图像文件，共计185,623张图像；其余27个类别及非AI图像部分以README占位符形式提供。
均衡合成协议：每个合成类别约5000张图像，与非AI语料库配对，全量设计约36万对图像。
数据来源多样性：
- Treasure团队自托管模型和扩散栈
- 官方/商业API
- 第三方经典发布（GenImage、WildFake、MPBench、Hugging Face等）

目录结构

text Treasure/ fake/ # 包含实际图像或README占位符 real/ cc12m-2mp-realistic/ # 非AI图像占位符 annotations/ README.md # 标注命名参考 art_style/ # 各生成器艺术风格标签CSV文件 nsfw_removed.csv # 被移除的NSFW图像ID清单 dataset_index.json # 完整类别索引和来源元数据 metadata.csv # 已发布伪造图像索引（NSFW过滤后）

关键特性

艺术风格标签：在annotations/art_style/目录下，为每张图像提供基于基础视觉语言模型的艺术风格域预测。
内容审核：NSFW图像已在发布前从分发文件中移除，被移除的路径记录在annotations/nsfw_removed.csv中。
检测标签：fake/*目录下的所有图像视为AI生成，real/*目录下的所有图像视为非AI。
生成器标签：使用fake/下的目录名作为生成器标签。
图像处理：原始文件，无二次压缩，无分片。

已包含的伪造子集（37个）

目录	模型	来源	图像数
`Playground_v2`	Playground V2	自生成	4,998
`Playground_v2.5`	Playground V2.5	自生成	4,999
`HunyuanDiT`	Hunyuan-DiT	自生成	5,000
`LlamaGen`	LlamaGen	自生成	5,000
`SD3-Medium`	SD3-medium	自生成	4,998
`Show_o`	Show-o	自生成	4,999
`OmniGen_v1`	OmniGen	自生成	5,000
`Cogview3-plus`	CogView3plus	自生成	5,045
`Infinity`	Infinity-2B	自生成	4,999
`Janus-Pro-7B`	Janus-Pro-7B	自生成	4,997
`Sana_v1.5`	SANA v1.5	自生成	4,999
`Lumina`	LUMINA-Image 2.0	自生成	4,992
`HiDream-I1-Dev`	HiDream-I1-Dev	自生成	5,000
`BAGEL-7B`	BAGEL	自生成	5,607
`BRIA_v3_2`	BRIA 3.2	自生成	5,000
`OmniGen_v2`	OmniGen2	自生成	4,998
`Show_o2`	Show-o2	自生成	5,000
`ovis-U1`	Ovis-U1	自生成	5,000
`NextStep`	NextStep-1	自生成	4,999
`Z-Image-Turbo`	Z-Image-Turbo	自生成	5,000
`LongCat-Image`	LongCat-Image	自生成	4,999
`Kolors`	Kolors	自生成	5,000
`Qwen-Image`	Qwen-Image	API	5,000
`Imagen4`	Imagen 4	API	4,999
`Nano Banana`	Nano Banana	API	5,000
`Nano-Banana-Pro`	Nano Banana Pro	API	5,000
`doubao-seedream-4.0`	Doubao Seedream 4.0	API	5,000
`doubao-seedream-3.0-t2i`	Doubao Seedream 3.0	API	5,000
`HunyuanImage-3.0`	HunyuanImage 3.0	API	5,000
`FLUX.2`	FLUX.2	API	4,997
`wan2.2-t2i-flash`	wan2.2-t2i-flash	API	5,000
`wan2.5-t2i-preview`	wan2.5-t2i-preview	API	5,000
`CogView4`	CogView4	API	5,000
`sora-image`	Sora-image	API	5,000
`gpt-image-1.5`	GPT-image-1.5	API	5,000
`Midjourney V6.1`	Midjourney v6.1	API	5,000
`Midjourney V7`	Midjourney v7	API	4,998

占位符子集（27个）

目录	模型	来源	上游链接
`BigGAN`	BigGAN	GenImage	https://github.com/GenImage-Dataset/GenImage
`ADM`	ADM	GenImage	https://github.com/GenImage-Dataset/GenImage
`GLIDE`	GLIDE	GenImage	https://github.com/GenImage-Dataset/GenImage
`Wukong`	Wukong	GenImage	https://github.com/GenImage-Dataset/GenImage
`VQDM`	VQDM	GenImage	https://github.com/GenImage-Dataset/GenImage
`SDv1.4`	SD v1.4	GenImage	https://github.com/GenImage-Dataset/GenImage
`SDv1.5`	SD v1.5	GenImage	https://github.com/GenImage-Dataset/GenImage
`Midjourney_V5`	Midjourney V5	GenImage	https://github.com/GenImage-Dataset/GenImage
`ProGAN`	ProGAN	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`StarGAN`	StarGAN	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`DF-GAN`	DF-GAN	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`StyleGAN3`	StyleGAN3	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`DALLE-2`	DALL-E 2	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`Imagen`	Imagen	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`Midjourney_V4`	Midjourney V4	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`MAE`	MaskGit / MAE	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`GigaGAN`	GigaGAN	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`SDXL`	SDXL	WildFake	https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
`CogView2`	CogView2	MPBench	https://huggingface.co/datasets/InfImagine/FakeImageDataset
`SDv2.1`	SD v2.1	MPBench	https://huggingface.co/datasets/InfImagine/FakeImageDataset
`DeepFloyd_IF`	DeepFloyd IF	MPBench	https://huggingface.co/datasets/InfImagine/FakeImageDataset
`ideogram`	Ideogram	Hugging Face	https://huggingface.co/datasets/terminusresearch/ideogram-75k
`pixart-α`	PixArt-alpha	Hugging Face	https://huggingface.co/datasets/PixArt-alpha/PixArt-Eval30K
`DALLE-3`	DALL-E 3	Hugging Face	https://huggingface.co/datasets/OpenDatasets/dalle-3-dataset
`FLUX.1-dev`	FLUX.1-dev	Hugging Face	https://huggingface.co/datasets/lehduong/flux_generated
`Midjourney_V6`	Midjourney V6	Hugging Face	https://huggingface.co/datasets/terminusresearch/midjourney-v6-520k-raw
`GPT4O_Image_T2I`	GPT-4o	Hugging Face	https://huggingface.co/datasets/yufan/GPT4O_Image_T2I

非AI图像

来源：real/cc12m-2mp-realistic（占位符，指向上游cc12m源）

引用要求

使用Treasure数据集时，请引用Fleet/Treasure论文（待最终引用信息可用）。

搜集汇总

数据集介绍

构建方式

Treasure数据集作为Fleet框架的基准配套，旨在突破传统AI生成图像检测中封闭基准测试的局限，构建面向开放世界的评估体系。数据集通过多源异构的合成协议构建，涵盖从经典GAN到前沿扩散模型的64个生成器类别，其中37个类别直接提供像素级图像，其余27个类别以占位符形式指引上游数据源。合成过程采用平衡策略，每类生成器约产出5000张图像，总计约36万张配对图像，对照Non-AI真实图像语料库。数据来源包括自托管模型检查点、商业API接口、以及GenImage、WildFake、MPBench等第三方公开数据集，确保生成图像在架构、训练策略和生成条件上的高度多样性。

使用方法

Treasure数据集可用于二元AI生成图像检测及多生成器分类任务。在二元检测中，所有fake/目录下的图像标记为AI生成，real/目录下的图像标记为非AI生成；在多生成器评估中，以子目录名称作为生成器标签。数据集未预设训练/测试集分割，研究者可根据需求自行划分。艺术风格标注存储于annotations/art_style/路径下的CSV文件中，可与每张图像文件名关联，用于风格感知的检测器训练。使用时需注意遵守CC BY-NC 4.0开源协议及上游数据源的单独许可条款，特别是部分生成数据的来源如GenImage、WildFake等可能受制于特定使用条件。

背景与挑战

背景概述

Treasure数据集诞生于生成式人工智能图像技术迅猛发展的时代背景下，由Fleet研究团队于近年构建，旨在解决现有AI生成图像检测基准在开放世界场景中性能饱和的困境。该数据集围绕“从静态不变特征假设向动态适应策略转变”的核心研究问题展开，系统收集了涵盖经典生成对抗网络至最新扩散模型，乃至20余种商业闭源引擎在内的64类生成器，共计约36万对图像。Treasure的发布为AI生成图像检测领域注入了全新的评估维度，显著推动了该领域对分布偏移与动态适应机制的深入探索。

当前挑战

Treasure数据集面临的主要挑战在于所解决的领域问题与构建过程双重维度。在领域层面，现有检测器多基于静态不变特征假设，难以有效应对生成器快速演进带来的分布漂移，亟需开放世界下能够动态适应的鲁棒检测方法。在构建层面，数据集的整合过程需协调来自自托管、商业API及第三方公开数据集的异构数据源，面临版权合规、NSFW内容过滤及跨平台许可协议冲突等复杂难题，同时需确保各生成类别间样本数量均衡以规避评估偏差。

常用场景

经典使用场景

Treasure数据集是专为开放世界中AI生成图像检测而设计的权威基准测试套件。研究者可借助该数据集中的海量合成图像与真实图像样本，系统评估各类检测器在面对跨越64种生成器类别（涵盖经典GAN、扩散模型及商业API）时的泛化能力。其独特的风格化注释机制允许从艺术风格维度剖析分布偏移对检测性能的影响，从而为动态适应性检测策略的研发提供坚实的实验基础。

解决学术问题

该数据集直面当前闭合基准测试中检测器性能趋近饱和的困境，突破了传统“静态不变特征”假设的局限性。通过引入跨生成器、跨域及跨风格的异构样本，Treasure有效检验了检测器对快速演进的生成技术的适应能力，推动了从单一特征学习向动态差异特征建模的研究范式转变。这一成果对于提升AI伪造内容检测领域的理论深度与系统性评估方法具有里程碑意义。

实际应用

在实际部署层面，Treasure可用于构建抵御伪造图像恶意传播的防护体系，如在社交媒体平台、新闻机构及司法鉴定场景中部署鲁棒的图像真实性筛查工具。其涵盖的商业API生成样本使得训练出的检测模型更贴近真实世界中的攻击面，能够有效识别来自Midjourney、Sora等高端服务产生的合成内容，为数字内容安全与版权保护提供关键技术支撑。

数据集最近研究