SuSy-Dataset
收藏SuSy Dataset: Synthetic Image Detection
数据集概述
SuSy Dataset 是一个包含真实和合成图像的集合,旨在用于训练和评估合成内容检测器。该数据集最初是为训练 SuSy 模型而创建的,但也可用于任何合成图像检测模型。
任务类别
- 图像分类
数据集规模
- 10K<n<100K
标签
- 图像
- AI 图像
- 合成图像检测
配置
- 配置名称: susy_dataset
- 训练集: data/train.zip
- 验证集: data/val.zip
- 测试集: data/test.zip
数据集信息
特征
- 图像: 图像类型
- 标签: 分类标签
- 类别名称:
- 0: coco
- 1: dalle-3-images
- 2: diffusiondb
- 3: midjourney-images
- 4: midjourney_tti
- 5: realisticSDXL
- 类别名称:
数据集详情
数据集描述
SuSy Dataset 是一个经过精心挑选的真实和 AI 生成图像的集合,用于训练和评估合成图像检测器。它包括来自各种来源的图像,以确保多样性和代表性。
来源
- 存储库: https://github.com/HPAI-BSC/SuSy
- 模型: https://huggingface.co/HPAI-BSC/SuSy
- 论文: TBD
用途
直接用途
该数据集旨在用于:
- 复制与 SuSy 相关的实验
- 训练合成图像检测和归属模型
- 评估合成图像检测和归属模型
超出范围的用途
SuSy Dataset 专门设计用于合成图像检测、分类和归属任务。因此,以下用途被视为超出范围:
- 生成合成图像
- 图像处理
- 法律或法医分析
- 内容审核
数据集结构
数据集由两种主要类型的图像组成:
- 真实图像: 来自 COCO 数据集的照片
- 合成图像: 来自五个不同生成器的 AI 生成图像
训练数据
| 数据集 | 年份 | 训练集 | 验证集 | 测试集 | 总计 |
|---|---|---|---|---|---|
| COCO | 2017 | 2,967 | 1,234 | 1,234 | 5,435 |
| dalle-3-images | 2023 | 987 | 330 | 330 | 1,647 |
| diffusiondb | 2022 | 2,967 | 1,234 | 1,234 | 5,435 |
| realisticSDXL | 2023 | 2,967 | 1,234 | 1,234 | 5,435 |
| midjourney-tti | 2022 | 2,718 | 906 | 906 | 4,530 |
| midjourney-images | 2023 | 1,845 | 617 | 617 | 3,079 |
真实图像
- COCO (Common Objects in Context): 一个大规模的对象检测、分割和字幕数据集。它包含超过 330,000 张图像,其中 200,000 张使用 80 个对象类别进行标记。对于此数据集,我们使用 5,435 张图像的随机子集。
- 许可证: Creative Commons Attribution 4.0 license
合成图像
- dalle-3-images: 包含 3,310 张使用 DALL-E 3 生成的独特图像。该数据集不包括用于生成图像的提示。
- 许可证: MIT license
- diffusiondb: 一个大规模的文本到图像提示数据集,包含由 Stable Diffusion 1.x 系列模型生成的 1400 万张图像(2022 年)。我们使用 5,435 张图像的随机子集。
- 许可证: CC0 1.0 Universal license
- realisticSDXL: 包含使用 Stable Diffusion XL (SDXL) 模型生成的图像,该模型于 2023 年 7 月发布。我们仅使用“真实”类别,其中包含 5,435 张图像。
- 许可证: CreativeML OpenRAIL-M license
- midjourney-tti: 包含使用 Midjourney V1 或 V2 模型生成的图像(2022 年初)。原始数据集提供了 URL,这些 URL 被抓取以获取图像。
- 许可证: CC0 1.0 Universal license (仅适用于链接,图像属于生成它们的用户)
- midjourney-images: 包含 4,308 张使用 Midjourney V5 和 V6 模型生成的独特图像(2023 年)。
- 许可证: MIT license
数据集创建
策划理由
该数据集的创建旨在提供一个全面的真实和 AI 生成图像集合,用于训练和评估合成内容检测器。策划过程旨在:
- 包括来自多个来源的多样化和高质量数据
- 代表各种 AI 图像生成模型(DALL-E、Midjourney、Stable Diffusion)
- 包括早期(2022 年)和更近期(2023 年)的 AI 生成图像,以研究模型演化的影响
源数据
数据收集和处理
- COCO 和 diffusiondb 数据集被下采样到 5,435 张图像,以与其他数据集平衡。
- realisticSDXL 数据集仅使用“真实”类别的图像。
- 对于没有预定义分区的数据集,执行 60%-20%-20% 的随机分割,分别用于训练、验证和测试集。
- midjourney-tti 数据集删除了拼贴图像和马赛克。
- dalle-3-images 和 midjourney-images 数据集进行了去重。
源数据生产者
- 真实图像: 摄影师(COCO 数据集)
- 合成图像: 各种 AI 图像生成模型(DALL-E、Stable Diffusion 和 Midjourney)
偏差、风险和限制
- 该数据集可能无法完全代表真实世界或 AI 生成图像的整个范围。
- 基于此数据集训练的模型的性能可能因每个子集的特定特征而异。
- 随着 AI 图像生成技术的迅速发展,该数据集中的合成图像可能随着时间的推移变得不再代表当前的 AI 能力。
建议
用户应注意:
- 该数据集包含真实和 AI 生成图像,每种图像根据其原始数据集的许可证受到其自身的限制。
- 该数据集专门为合成图像检测和归属而策划,可能不适合其他计算机视觉任务,除非进行修改。
- 使用此数据集时,应根据其各自的许可证对原始来源进行适当的归属。
- 可能需要定期更新数据集,以跟上 AI 图像生成技术的进步。
更多信息
有关数据集组成和 SuSy 模型的更多详细信息,请参阅原始研究论文(TBD)。
BibTeX: bibtex @misc{bernabeu2024susy, title={Present and Future Generalization of Synthetic Image Detectors}, author={Bernabeu Perez, Pablo and Lopez Cuena, Enrique and Garcia Gasulla, Dario}, year={2024}, month={09} }
bibtex @thesis{bernabeu2024aidetection, title={Detecting and Attributing AI-Generated Images with Machine Learning}, author={Bernabeu Perez, Pablo}, school={UPC, Facultat dInformàtica de Barcelona, Departament de Ciències de la Computació}, year={2024}, month={06} }
模型卡作者
模型卡联系
如需进一步咨询,请联系 HPAI




