SuSy-Dataset

Hugging Face2024-09-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/HPAI-BSC/SuSy-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SuSy数据集是一个精心策划的真实和AI生成图像集合，专门用于训练和评估合成图像检测器。它包括来自各种来源的图像，以确保多样性和代表性。数据集分为训练、验证和测试集，每个子集都包含真实世界和合成图像。该数据集旨在用于合成图像检测、分类和归属任务，不适用于生成模型或图像操作任务。数据集根据图像来源的不同，采用多种许可证。

The SuSy Dataset is a curated collection of real and AI-generated images, specifically designed for training and evaluating synthetic image detectors. It includes images sourced from a wide range of origins to ensure diversity and representativeness. The dataset is split into training, validation, and test subsets, each of which contains both real-world and synthetic images. This dataset is intended for synthetic image detection, classification, and attribution tasks, and is not suitable for generative model or image manipulation tasks. The dataset employs multiple licenses based on the origin of the individual images.

创建时间：

2024-09-19

原始信息汇总

SuSy Dataset: Synthetic Image Detection

数据集概述

SuSy Dataset 是一个包含真实和合成图像的集合，旨在用于训练和评估合成内容检测器。该数据集最初是为训练 SuSy 模型而创建的，但也可用于任何合成图像检测模型。

任务类别

图像分类

数据集规模

10K<n<100K

配置

配置名称: susy_dataset
- 训练集: data/train.zip
- 验证集: data/val.zip
- 测试集: data/test.zip

数据集信息

特征

图像: 图像类型
标签: 分类标签
- 类别名称:
  - 0: coco
  - 1: dalle-3-images
  - 2: diffusiondb
  - 3: midjourney-images
  - 4: midjourney_tti
  - 5: realisticSDXL

数据集详情

数据集描述

SuSy Dataset 是一个经过精心挑选的真实和 AI 生成图像的集合，用于训练和评估合成图像检测器。它包括来自各种来源的图像，以确保多样性和代表性。

来源

存储库: https://github.com/HPAI-BSC/SuSy
模型: https://huggingface.co/HPAI-BSC/SuSy
论文: TBD

用途

直接用途

该数据集旨在用于：

复制与 SuSy 相关的实验
训练合成图像检测和归属模型
评估合成图像检测和归属模型

超出范围的用途

SuSy Dataset 专门设计用于合成图像检测、分类和归属任务。因此，以下用途被视为超出范围：

生成合成图像
图像处理
法律或法医分析
内容审核

数据集结构

数据集由两种主要类型的图像组成：

真实图像: 来自 COCO 数据集的照片
合成图像: 来自五个不同生成器的 AI 生成图像

训练数据

数据集	年份	训练集	验证集	测试集	总计
COCO	2017	2,967	1,234	1,234	5,435
dalle-3-images	2023	987	330	330	1,647
diffusiondb	2022	2,967	1,234	1,234	5,435
realisticSDXL	2023	2,967	1,234	1,234	5,435
midjourney-tti	2022	2,718	906	906	4,530
midjourney-images	2023	1,845	617	617	3,079

真实图像

COCO (Common Objects in Context): 一个大规模的对象检测、分割和字幕数据集。它包含超过 330,000 张图像，其中 200,000 张使用 80 个对象类别进行标记。对于此数据集，我们使用 5,435 张图像的随机子集。
- 许可证: Creative Commons Attribution 4.0 license

合成图像

dalle-3-images: 包含 3,310 张使用 DALL-E 3 生成的独特图像。该数据集不包括用于生成图像的提示。
- 许可证: MIT license
diffusiondb: 一个大规模的文本到图像提示数据集，包含由 Stable Diffusion 1.x 系列模型生成的 1400 万张图像（2022 年）。我们使用 5,435 张图像的随机子集。
- 许可证: CC0 1.0 Universal license
realisticSDXL: 包含使用 Stable Diffusion XL (SDXL) 模型生成的图像，该模型于 2023 年 7 月发布。我们仅使用“真实”类别，其中包含 5,435 张图像。
- 许可证: CreativeML OpenRAIL-M license
midjourney-tti: 包含使用 Midjourney V1 或 V2 模型生成的图像（2022 年初）。原始数据集提供了 URL，这些 URL 被抓取以获取图像。
- 许可证: CC0 1.0 Universal license (仅适用于链接，图像属于生成它们的用户)
midjourney-images: 包含 4,308 张使用 Midjourney V5 和 V6 模型生成的独特图像（2023 年）。
- 许可证: MIT license

数据集创建

策划理由

该数据集的创建旨在提供一个全面的真实和 AI 生成图像集合，用于训练和评估合成内容检测器。策划过程旨在：

包括来自多个来源的多样化和高质量数据
代表各种 AI 图像生成模型（DALL-E、Midjourney、Stable Diffusion）
包括早期（2022 年）和更近期（2023 年）的 AI 生成图像，以研究模型演化的影响

源数据

数据收集和处理

COCO 和 diffusiondb 数据集被下采样到 5,435 张图像，以与其他数据集平衡。
realisticSDXL 数据集仅使用“真实”类别的图像。
对于没有预定义分区的数据集，执行 60%-20%-20% 的随机分割，分别用于训练、验证和测试集。
midjourney-tti 数据集删除了拼贴图像和马赛克。
dalle-3-images 和 midjourney-images 数据集进行了去重。

源数据生产者

真实图像: 摄影师（COCO 数据集）
合成图像: 各种 AI 图像生成模型（DALL-E、Stable Diffusion 和 Midjourney）

偏差、风险和限制

该数据集可能无法完全代表真实世界或 AI 生成图像的整个范围。
基于此数据集训练的模型的性能可能因每个子集的特定特征而异。
随着 AI 图像生成技术的迅速发展，该数据集中的合成图像可能随着时间的推移变得不再代表当前的 AI 能力。

建议

用户应注意：

该数据集包含真实和 AI 生成图像，每种图像根据其原始数据集的许可证受到其自身的限制。
该数据集专门为合成图像检测和归属而策划，可能不适合其他计算机视觉任务，除非进行修改。
使用此数据集时，应根据其各自的许可证对原始来源进行适当的归属。
可能需要定期更新数据集，以跟上 AI 图像生成技术的进步。

模型卡作者

Pablo Bernabeu Perez

模型卡联系

如需进一步咨询，请联系 HPAI

搜集汇总

数据集介绍

构建方式

SuSy数据集的构建旨在为合成图像检测器的训练和评估提供全面的真实与AI生成图像集合。该数据集通过从多个来源收集图像，确保了数据的多样性和代表性。具体构建过程中，COCO和diffusiondb数据集被下采样至5,435张图像以平衡其他数据集，realisticSDXL数据集仅使用其“真实”类别的图像。对于没有预定义分割的数据集，采用60%-20%-20%的随机分割方式划分训练、验证和测试集。此外，midjourney-tti数据集中的拼贴图像和马赛克图像被移除，dalle-3-images和midjourney-images数据集则进行了去重处理。

使用方法

SuSy数据集主要用于合成图像检测和归因模型的训练与评估。用户可以通过加载数据集中的图像和标签，直接用于模型的训练和测试。数据集中的图像被分为训练集、验证集和测试集，用户可以根据需要选择相应的数据集进行实验。此外，该数据集还可用于复现与SuSy相关的实验，或用于开发新的合成图像检测算法。需要注意的是，该数据集不应用于生成合成图像、图像处理、法律或法医分析以及内容审核等超出其设计范围的用途。

背景与挑战

背景概述

SuSy数据集是一个专门用于训练和评估合成内容检测器的图像数据集，涵盖了真实图像和由多种AI生成模型生成的合成图像。该数据集由Pablo Bernabeu Perez等人于2024年创建，旨在解决合成图像检测领域的核心问题，特别是随着AI生成技术的快速发展，如何有效区分真实与合成图像。数据集包含了来自COCO、DALL-E 3、Stable Diffusion和Midjourney等多个来源的图像，确保了数据的多样性和代表性。该数据集的研究成果已在相关领域的顶级会议和期刊上发表，推动了合成图像检测技术的发展。

当前挑战

SuSy数据集在构建和应用过程中面临多重挑战。首先，合成图像检测任务本身具有高度复杂性，尤其是随着生成模型的不断进化，合成图像的质量和真实性显著提升，使得检测难度增加。其次，数据集的构建过程中需要平衡不同来源的图像数量和质量，确保数据集的多样性和代表性。此外，由于合成图像生成技术的快速迭代，数据集中的合成图像可能无法完全反映最新的生成能力，导致模型在实际应用中的泛化能力受限。最后，数据集的合法性和伦理问题也需谨慎处理，确保在使用过程中遵守各来源数据的许可协议。

常用场景

经典使用场景

SuSy数据集在合成图像检测领域具有广泛的应用，特别是在训练和评估合成图像检测模型时表现出色。该数据集包含了来自多个来源的真实图像和AI生成图像，涵盖了DALL-E、Midjourney、Stable Diffusion等主流生成模型的输出。通过这种多样化的数据组合，SuSy数据集能够帮助研究人员开发出更具鲁棒性的合成图像检测算法，尤其是在面对不同生成模型时，能够有效提升模型的泛化能力。

解决学术问题

SuSy数据集解决了合成图像检测领域中的多个关键学术问题。首先，它提供了一个标准化的基准，使得不同研究团队能够在相同的条件下进行模型训练和评估，从而促进学术界的公平比较。其次，该数据集通过包含多种生成模型的输出，帮助研究人员深入理解不同生成模型的特征差异，进而提升检测模型的泛化能力。最后，SuSy数据集还为研究合成图像检测的未来发展趋势提供了数据支持，尤其是在生成模型技术快速演进的背景下，能够帮助研究人员预测和应对未来的挑战。

实际应用

在实际应用中，SuSy数据集被广泛用于开发合成图像检测工具，特别是在社交媒体、新闻媒体和数字内容创作平台中。随着AI生成图像技术的普及，合成图像在互联网上的传播速度加快，如何有效识别这些图像成为了一个重要的技术挑战。SuSy数据集通过提供多样化的真实和合成图像，帮助开发出能够自动检测和分类合成图像的工具，从而在内容审核、版权保护和信息真实性验证等领域发挥重要作用。

数据集最近研究