five

Treasure

收藏
Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/ThreeLiu/Treasure
下载链接
链接失效反馈
官方服务:
资源简介:
Treasure是一个用于开放场景下AI生成图像检测的大规模评估数据集,作为Fleet研究的基准配套。该数据集旨在突破传统封闭集基准的局限,支持针对快速进化的生成器的动态适应检测研究。数据集包含64类生成器,其中37类以图像文件形式提供(共185,623张合成图像),27类以README占位符形式指向上游数据源。数据来源包括:研究团队自托管模型生成的图像、商业API输出以及经典第三方发布(如GenImage、WildFake等)。每类合成图像约5000张,与真实图像库形成对比。数据集特别包含基于视觉语言模型的艺术风格标注(CSV格式),支持分布偏移分析。所有图像保持原始格式,未经重新压缩。数据集采用CC BY-NC 4.0许可,仅限非商业用途。适用于AI生成图像检测、生成器溯源、图像取证等研究任务。

Treasure is a large-scale evaluation dataset for AI-generated image detection in open scenarios, serving as a benchmark for Fleet research. It aims to break through the limitations of traditional closed-set benchmarks and supports dynamic adaptation detection research for rapidly evolving generators. The dataset includes 64 types of generators, with 37 types provided as image files (totaling 185,623 synthetic images) and 27 types as README placeholders pointing to upstream data sources. Data sources include: images generated by the research teams self-hosted models, outputs from commercial APIs, and classic third-party releases (such as GenImage, WildFake, etc.). Each type of synthetic image contains approximately 5,000 images, forming a contrast with the real image library. The dataset specifically includes art style annotations (CSV format) based on visual language models, supporting distribution shift analysis. All images maintain their original format without recompression. The dataset is licensed under CC BY-NC 4.0 and is for non-commercial use only. It is suitable for research tasks such as AI-generated image detection, generator tracing, and image forensics.
创建时间:
2026-05-03
原始信息汇总

数据集概述:Treasure

基本信息

  • 数据集名称:Treasure
  • 语言:英语(en)
  • 任务类别:图像分类(image-classification)
  • 标签:AI生成图像检测、合成图像检测、AIGC、图像取证
  • 数据规模:100K < n < 1M
  • 许可证:Creative Commons Attribution-NonCommercial 4.0 International(CC BY-NC 4.0)

数据集描述

Treasure 是 Fleet(少样本高效AI生成图像检测)的配套基准数据集,专为开放世界场景下的AI生成图像(AIGI)检测评估而设计,超越了传统封闭式基准测试。该数据集旨在测试检测器对快速演变的生成器的动态适应能力

数据集构成

  • 生成器类别:共64个生成器类别,涵盖经典GAN和扩散模型,以及专有商业API(完整基准设计中包含20个闭源引擎)。
  • 图像数量:本仓库发布包含37个生成器目录的实际图像文件,共计185,623张图像;其余27个类别及非AI图像部分以README占位符形式提供。
  • 均衡合成协议:每个合成类别约5000张图像,与非AI语料库配对,全量设计约36万对图像
  • 数据来源多样性
    • Treasure团队自托管模型和扩散栈
    • 官方/商业API
    • 第三方经典发布(GenImage、WildFake、MPBench、Hugging Face等)

目录结构

text Treasure/ fake/ # 包含实际图像或README占位符 real/ cc12m-2mp-realistic/ # 非AI图像占位符 annotations/ README.md # 标注命名参考 art_style/ # 各生成器艺术风格标签CSV文件 nsfw_removed.csv # 被移除的NSFW图像ID清单 dataset_index.json # 完整类别索引和来源元数据 metadata.csv # 已发布伪造图像索引(NSFW过滤后)

关键特性

  • 艺术风格标签:在annotations/art_style/目录下,为每张图像提供基于基础视觉语言模型的艺术风格域预测。
  • 内容审核:NSFW图像已在发布前从分发文件中移除,被移除的路径记录在annotations/nsfw_removed.csv中。
  • 检测标签fake/*目录下的所有图像视为AI生成,real/*目录下的所有图像视为非AI。
  • 生成器标签:使用fake/下的目录名作为生成器标签。
  • 图像处理:原始文件,无二次压缩,无分片。

已包含的伪造子集(37个)

目录 模型 来源 图像数
Playground_v2 Playground V2 自生成 4,998
Playground_v2.5 Playground V2.5 自生成 4,999
HunyuanDiT Hunyuan-DiT 自生成 5,000
LlamaGen LlamaGen 自生成 5,000
SD3-Medium SD3-medium 自生成 4,998
Show_o Show-o 自生成 4,999
OmniGen_v1 OmniGen 自生成 5,000
Cogview3-plus CogView3plus 自生成 5,045
Infinity Infinity-2B 自生成 4,999
Janus-Pro-7B Janus-Pro-7B 自生成 4,997
Sana_v1.5 SANA v1.5 自生成 4,999
Lumina LUMINA-Image 2.0 自生成 4,992
HiDream-I1-Dev HiDream-I1-Dev 自生成 5,000
BAGEL-7B BAGEL 自生成 5,607
BRIA_v3_2 BRIA 3.2 自生成 5,000
OmniGen_v2 OmniGen2 自生成 4,998
Show_o2 Show-o2 自生成 5,000
ovis-U1 Ovis-U1 自生成 5,000
NextStep NextStep-1 自生成 4,999
Z-Image-Turbo Z-Image-Turbo 自生成 5,000
LongCat-Image LongCat-Image 自生成 4,999
Kolors Kolors 自生成 5,000
Qwen-Image Qwen-Image API 5,000
Imagen4 Imagen 4 API 4,999
Nano Banana Nano Banana API 5,000
Nano-Banana-Pro Nano Banana Pro API 5,000
doubao-seedream-4.0 Doubao Seedream 4.0 API 5,000
doubao-seedream-3.0-t2i Doubao Seedream 3.0 API 5,000
HunyuanImage-3.0 HunyuanImage 3.0 API 5,000
FLUX.2 FLUX.2 API 4,997
wan2.2-t2i-flash wan2.2-t2i-flash API 5,000
wan2.5-t2i-preview wan2.5-t2i-preview API 5,000
CogView4 CogView4 API 5,000
sora-image Sora-image API 5,000
gpt-image-1.5 GPT-image-1.5 API 5,000
Midjourney V6.1 Midjourney v6.1 API 5,000
Midjourney V7 Midjourney v7 API 4,998

占位符子集(27个)

目录 模型 来源 上游链接
BigGAN BigGAN GenImage https://github.com/GenImage-Dataset/GenImage
ADM ADM GenImage https://github.com/GenImage-Dataset/GenImage
GLIDE GLIDE GenImage https://github.com/GenImage-Dataset/GenImage
Wukong Wukong GenImage https://github.com/GenImage-Dataset/GenImage
VQDM VQDM GenImage https://github.com/GenImage-Dataset/GenImage
SDv1.4 SD v1.4 GenImage https://github.com/GenImage-Dataset/GenImage
SDv1.5 SD v1.5 GenImage https://github.com/GenImage-Dataset/GenImage
Midjourney_V5 Midjourney V5 GenImage https://github.com/GenImage-Dataset/GenImage
ProGAN ProGAN WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
StarGAN StarGAN WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
DF-GAN DF-GAN WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
StyleGAN3 StyleGAN3 WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
DALLE-2 DALL-E 2 WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
Imagen Imagen WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
Midjourney_V4 Midjourney V4 WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
MAE MaskGit / MAE WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
GigaGAN GigaGAN WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
SDXL SDXL WildFake https://github.com/hy-zpg/AIGC-Image-Detection-Dataset
CogView2 CogView2 MPBench https://huggingface.co/datasets/InfImagine/FakeImageDataset
SDv2.1 SD v2.1 MPBench https://huggingface.co/datasets/InfImagine/FakeImageDataset
DeepFloyd_IF DeepFloyd IF MPBench https://huggingface.co/datasets/InfImagine/FakeImageDataset
ideogram Ideogram Hugging Face https://huggingface.co/datasets/terminusresearch/ideogram-75k
pixart-α PixArt-alpha Hugging Face https://huggingface.co/datasets/PixArt-alpha/PixArt-Eval30K
DALLE-3 DALL-E 3 Hugging Face https://huggingface.co/datasets/OpenDatasets/dalle-3-dataset
FLUX.1-dev FLUX.1-dev Hugging Face https://huggingface.co/datasets/lehduong/flux_generated
Midjourney_V6 Midjourney V6 Hugging Face https://huggingface.co/datasets/terminusresearch/midjourney-v6-520k-raw
GPT4O_Image_T2I GPT-4o Hugging Face https://huggingface.co/datasets/yufan/GPT4O_Image_T2I

非AI图像

  • 来源:real/cc12m-2mp-realistic(占位符,指向上游cc12m源)

引用要求

使用Treasure数据集时,请引用Fleet/Treasure论文(待最终引用信息可用)。

搜集汇总
数据集介绍
main_image_url
构建方式
Treasure数据集作为Fleet框架的基准配套,旨在突破传统AI生成图像检测中封闭基准测试的局限,构建面向开放世界的评估体系。数据集通过多源异构的合成协议构建,涵盖从经典GAN到前沿扩散模型的64个生成器类别,其中37个类别直接提供像素级图像,其余27个类别以占位符形式指引上游数据源。合成过程采用平衡策略,每类生成器约产出5000张图像,总计约36万张配对图像,对照Non-AI真实图像语料库。数据来源包括自托管模型检查点、商业API接口、以及GenImage、WildFake、MPBench等第三方公开数据集,确保生成图像在架构、训练策略和生成条件上的高度多样性。
使用方法
Treasure数据集可用于二元AI生成图像检测及多生成器分类任务。在二元检测中,所有fake/目录下的图像标记为AI生成,real/目录下的图像标记为非AI生成;在多生成器评估中,以子目录名称作为生成器标签。数据集未预设训练/测试集分割,研究者可根据需求自行划分。艺术风格标注存储于annotations/art_style/路径下的CSV文件中,可与每张图像文件名关联,用于风格感知的检测器训练。使用时需注意遵守CC BY-NC 4.0开源协议及上游数据源的单独许可条款,特别是部分生成数据的来源如GenImage、WildFake等可能受制于特定使用条件。
背景与挑战
背景概述
Treasure数据集诞生于生成式人工智能图像技术迅猛发展的时代背景下,由Fleet研究团队于近年构建,旨在解决现有AI生成图像检测基准在开放世界场景中性能饱和的困境。该数据集围绕“从静态不变特征假设向动态适应策略转变”的核心研究问题展开,系统收集了涵盖经典生成对抗网络至最新扩散模型,乃至20余种商业闭源引擎在内的64类生成器,共计约36万对图像。Treasure的发布为AI生成图像检测领域注入了全新的评估维度,显著推动了该领域对分布偏移与动态适应机制的深入探索。
当前挑战
Treasure数据集面临的主要挑战在于所解决的领域问题与构建过程双重维度。在领域层面,现有检测器多基于静态不变特征假设,难以有效应对生成器快速演进带来的分布漂移,亟需开放世界下能够动态适应的鲁棒检测方法。在构建层面,数据集的整合过程需协调来自自托管、商业API及第三方公开数据集的异构数据源,面临版权合规、NSFW内容过滤及跨平台许可协议冲突等复杂难题,同时需确保各生成类别间样本数量均衡以规避评估偏差。
常用场景
经典使用场景
Treasure数据集是专为开放世界中AI生成图像检测而设计的权威基准测试套件。研究者可借助该数据集中的海量合成图像与真实图像样本,系统评估各类检测器在面对跨越64种生成器类别(涵盖经典GAN、扩散模型及商业API)时的泛化能力。其独特的风格化注释机制允许从艺术风格维度剖析分布偏移对检测性能的影响,从而为动态适应性检测策略的研发提供坚实的实验基础。
解决学术问题
该数据集直面当前闭合基准测试中检测器性能趋近饱和的困境,突破了传统“静态不变特征”假设的局限性。通过引入跨生成器、跨域及跨风格的异构样本,Treasure有效检验了检测器对快速演进的生成技术的适应能力,推动了从单一特征学习向动态差异特征建模的研究范式转变。这一成果对于提升AI伪造内容检测领域的理论深度与系统性评估方法具有里程碑意义。
实际应用
在实际部署层面,Treasure可用于构建抵御伪造图像恶意传播的防护体系,如在社交媒体平台、新闻机构及司法鉴定场景中部署鲁棒的图像真实性筛查工具。其涵盖的商业API生成样本使得训练出的检测模型更贴近真实世界中的攻击面,能够有效识别来自Midjourney、Sora等高端服务产生的合成内容,为数字内容安全与版权保护提供关键技术支撑。
数据集最近研究
最新研究方向
Treasure数据集作为Fleet框架的配套基准,正推动AI生成图像检测研究从封闭静态特征假设向动态适应范式转型。该领域前沿聚焦于构建涵盖64类生成器(包括Midjourney V7、GPT-image-1.5等20款商业API引擎)的开放世界评估体系,通过风格化标注与分布偏移分析,探索多域艺术风格线索在鉴别器中的调控机制。这一研究路径与生成式AI技术井喷式发展紧密呼应,尤其是在商用模型快速迭代背景下,Treasure所倡导的动态适应策略为应对新型合成图像溯源、深度伪造治理及数字内容取证等热点问题提供了关键评测工具,其跨模型、跨场景的异构数据构成对下一代鲁棒性检测算法的发展具有里程碑式意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作