dragon

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/lesc-unifi/dragon

下载链接

链接失效反馈

官方服务：

资源简介：

DRAGON是一个大型数据集，包含由25种不同的扩散模型生成的250万张训练图像和10万张测试图像。该数据集用于支持多媒体取证工具的开发，特别是合成图像检测和模型归因。数据集提供不同大小的预定义子集，以适应各种研究需求。

DRAGON is a large-scale dataset comprising 2.5 million training images and 100,000 test images generated by 25 distinct diffusion models. This dataset is designed to support the development of multimedia forensics tools, particularly synthetic image detection and model attribution. It provides pre-defined subsets of varying sizes to accommodate diverse research requirements.

创建时间：

2025-05-14

原始信息汇总

DRAGON 数据集概述

基本信息

名称: DRAGON (Dataset of Realistic imAges Generated by diffusiON models)
许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
任务类别: 图像分类
数据规模: 1M<n<10M
数据集大小: 250万训练图像 + 10万测试图像
生成模型数量: 25种扩散模型

数据集描述

DRAGON 是一个由扩散模型生成的大规模真实图像数据集，旨在支持多媒体取证工具的研发，特别是针对合成图像检测和模型归因任务。数据集包含多样化的主题，并提供多种尺寸选项以适应不同的研究需求。

数据集结构

训练集: 250万图像
测试集: 10万图像
标注信息: 每张图像标注了生成模型和输入提示

预定义子集

子集名称	提示数量	训练图像数量	测试图像数量
ExtraSmall (XS)	10	250	1,000
Small (S)	100	2,500	10,000
Regular (R)	100	25,000	10,000
Large (L)	1,000	250,000	100,000
ExtraLarge (XL)	1,000	2,500,000	100,000

文件配置

ExtraSmall:
- 训练集: train/xs/dragon_train_xs.tar
- 测试集: test/dragon_test_00.tar
Small:
- 训练集: train/dragon_train_000.tar
- 测试集: test/dragon_test_0?.tar
Regular:
- 训练集: train/dragon_train_00?.tar
- 测试集: test/dragon_test_0?.tar
Large:
- 训练集: train/dragon_train_0??.tar
- 测试集: test/dragon_test_??.tar
ExtraLarge:
- 训练集: train/dragon_train_???.tar
- 测试集: test/dragon_test_??.tar

引用格式

bibtex @misc{bertazzini2025dragon, title={DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models}, author={Giulia Bertazzini and Daniele Baracchi and Dasara Shullani and Isao Echizen and Alessandro Piva}, year={2025}, eprint={2505.11257}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.11257}, }

联系方式

Giulia Bertazzini: giulia.bertazzini@unifi.it
Daniele Baracchi: daniele.baracchi@unifi.it

搜集汇总

数据集介绍

构建方式

在数字图像处理领域，DRAGON数据集的构建体现了系统性设计理念。研究团队采用25种扩散模型生成图像，覆盖了从经典到前沿的多种架构。基于ImageNet的1,000个类别，每个类别生成特定提示词，并据此为每个模型产生100张训练图像和4张测试图像，最终形成包含250万训练图像和10万测试图像的大规模数据集。数据组织采用分层抽样策略，提供从超小型到超大型五种预设规模，满足不同计算环境下的研究需求。

特点

该数据集最显著的特征在于其系统性的多样性设计。不仅包含多种扩散模型生成的图像，还覆盖广泛的视觉语义类别。每个图像均标注了生成模型和输入提示词，为模型溯源研究提供了坚实基础。数据规模梯度设计独特，从仅包含250张训练图像的XS版本到完整的250万训练图像XL版本，为算法验证和性能评估提供了灵活的基准平台。这种多层次结构特别适合研究模型检测方法的可扩展性和泛化能力。

使用方法

研究人员可根据计算资源选择适当规模的数据子集，通过HuggingFace平台提供的标准化接口加载。数据集采用分块压缩存储，用户可选择性下载特定模型或规模的数据。典型应用场景包括：使用训练集开发扩散模型检测算法，在标准化测试集上评估性能；利用完整标注信息进行生成模型溯源研究；不同规模子集可用于算法鲁棒性分析和计算效率测试。数据加载后可直接用于计算机视觉模型的训练和验证流程。

背景与挑战

背景概述

DRAGON数据集由意大利佛罗伦萨大学信号处理与通信实验室（LESC）于2025年推出，旨在应对扩散模型生成图像日益普及所带来的技术挑战。该数据集包含由25种扩散模型生成的250万训练图像和10万测试图像，覆盖ImageNet的1000个类别，每类别均配有标准化的输入提示词。作为首个系统整合多代扩散模型生成结果的大规模基准，DRAGON为多媒体取证领域提供了关键研究素材，特别是在合成图像检测和模型溯源方向推动了算法评估的标准化进程。

当前挑战

构建DRAGON数据集面临双重技术挑战：在领域问题层面，如何区分不同扩散模型生成的视觉特征差异成为核心难题，尤其是当模型架构迭代迅速时，保持检测方法的泛化能力需要精细的样本平衡；在工程实现层面，协调25种模型生成250万张图像的质量一致性，以及设计覆盖ImageNet千类别的语义平衡提示词体系，均涉及复杂的计算资源调度与人工校验。数据集特有的多规模子集划分策略，亦对存储架构和分布式处理提出了创新性要求。

常用场景

经典使用场景

在计算机视觉领域，DRAGON数据集为研究扩散模型生成的合成图像检测提供了丰富的实验材料。该数据集通过涵盖25种扩散模型生成的250万训练图像和10万测试图像，为算法开发人员构建了一个标准化的评估平台。研究人员可以利用其多层次的数据规模配置，从ExtraSmall到ExtraLarge逐步验证模型在不同数据量下的表现，特别适合进行迁移学习和小样本学习的对比实验。

实际应用

在实际应用中，DRAGON数据集为社交媒体平台的内容审核系统提供了重要的训练资源。安全团队可以利用该数据集开发高效的深度伪造检测工具，识别潜在的虚假信息传播。数字版权管理机构则借助其丰富的模型标注信息，追踪特定生成模型的非法使用情况。教育机构也可通过数据集的层次化设计，为不同阶段的学生提供匹配的教学案例。

衍生相关工作

基于DRAGON数据集已衍生出多项重要研究，包括基于注意力机制的生成模型指纹识别系统、多模态融合的深度伪造检测框架等。该数据集被广泛引用在ICCV、CVPR等顶级会议的论文中，成为评估生成图像检测算法的基准平台。部分研究团队进一步扩展了其应用边界，开发出针对特定领域（如医学影像）的生成模型识别方案。

以上内容由遇见数据集搜集并总结生成