OpenSDID

Name: OpenSDID
Creator: 西安交通大学, 南安普顿大学, 哈尔滨工业大学
Published: 2025-03-25 21:43:16
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/iamwangyabin/OpenSDI

下载链接

链接失效反馈

官方服务：

资源简介：

OpenSDID数据集是由西安交通大学、南安普顿大学和哈尔滨工业大学的研究人员创建的，旨在应对开放世界中检测扩散生成图像的挑战。该数据集通过使用大型视觉语言模型模拟开放世界的扩散操作，包含了用户多样性、模型创新性和操作范围广度三个关键维度。数据集由300,000个真实图像和450,000个伪造图像组成，涵盖了多种先进的扩散模型生成的图像，旨在全面模拟真实世界中的图像操作，为检测和定位任务提供了一个复杂且多样化的基准。

The OpenSDID dataset was developed by researchers from Xi'an Jiaotong University, University of Southampton, and Harbin Institute of Technology, aiming to address the challenge of detecting diffusion-generated images in the open world. This dataset simulates diffusion operations in the open world using large vision-language models, and encompasses three core dimensions: user diversity, model innovation, and breadth of operation scope. The dataset consists of 300,000 real images and 450,000 forged images, covering images generated by a variety of state-of-the-art diffusion models. It aims to comprehensively simulate real-world image manipulation and provide a complex and diverse benchmark for detection and localization tasks.

提供机构：

西安交通大学, 南安普顿大学, 哈尔滨工业大学

创建时间：

2025-03-25

原始信息汇总

OpenSDI数据集概述

数据集简介

名称: OpenSDID (Open-world Spotting of Diffusion Images Dataset)
目的: 解决开放世界中识别扩散生成图像的挑战
特点:
- 模拟多样化的用户意图和创意风格
- 包含多种先进扩散模型生成的图像
- 涵盖从全局图像合成到局部编辑的全方位操作

数据集统计

模型	训练集		测试集		总计
	真实	生成	真实	生成	图像数
SD1.5	100K	100K	10K	10K	220K
SD2.1	-	-	10K	10K	20K
SDXL	-	-	10K	10K	20K
SD3	-	-	10K	10K	20K
Flux.1	-	-	10K	10K	20K
总计	100K	100K	50K	50K	300K

包含模型

SD1.5
SD2.1
SDXL
SD3
Flux.1

下载信息

训练集: https://huggingface.co/datasets/nebula/OpenSDI_train
测试集: https://huggingface.co/datasets/nebula/OpenSDI_test
许可: CC BY-SA 4.0
来源: 真实图像来自megalith-10m数据集

评估与贡献

排行榜: https://iamwangyabin.github.io/OpenSDI/
推荐工具: IMDLBenCo (https://github.com/scu-zjz/IMDLBenCo)

相关论文

标题: OpenSDI: Spotting Diffusion-Generated Images in the Open World
作者: Wang, Yabin; Huang, Zhiwu; Hong, Xiaopeng
年份: 2025
arXiv: https://arxiv.org/abs/2503.19653

搜集汇总

数据集介绍

构建方式

OpenSDID数据集的构建采用了多阶段自动化流程，首先从Megalith-10M数据库筛选真实图像，随后通过LLaMA3 Vision等先进视觉语言模型生成多样化编辑指令。为精确控制编辑区域，结合Florence-2和SAM模型实现开放词汇检测与细粒度分割。在生成阶段采用包括Stable Diffusion多版本和Flux.1在内的前沿扩散模型，通过调节推理步数、引导尺度等参数增强多样性，并利用CLIP模型进行图文相似度筛选确保质量。该流程创新性地整合了用户偏好模拟（通过VLMs）、模型创新覆盖（多版本扩散模型）和操作范围完整性（全局生成与局部编辑），构建了包含30万图像的基准数据集。

特点

OpenSDID的核心特征体现在三维度创新：用户多样性方面，通过多VLMs模拟真实用户行为生成风格迥异的编辑指令；模型创新性方面，囊括SD1.5至SD3等五代扩散模型及Florence-1架构，覆盖不同参数配置的生成特性；操作完整性方面，同时包含全局合成图像与基于SAM的局部编辑样本。数据集特别设计20%的测试集来自未见过的生成器，有效评估模型泛化能力。相比传统伪造数据集，其创新性地采用CLIP-guided质量过滤机制，确保90%以上样本的图文语义一致性，并包含像素级标注掩模支持定位任务。

使用方法

使用OpenSDID需区分检测与定位双任务范式。检测任务可采用图像级分类框架，建议以CLIP视觉编码器提取特征后接MLP分类头；定位任务推荐基于MAE或SAM的编码器-解码器架构，结合FPN处理多尺度特征。实验设置应严格遵循论文中的数据集划分，训练集仅包含SD1.5生成样本，测试时需评估跨模型泛化性能。针对开放世界场景，可采用论文提出的SPM框架，通过提示调优和注意力机制协同CLIP与MAE模型。数据预处理需保持512×512分辨率，并应用高斯模糊、JPEG压缩等退化操作进行鲁棒性验证。

背景与挑战

背景概述

OpenSDID（Open-world Spotting of Diffusion Images Dataset）是由西安交通大学、南安普顿大学和哈尔滨工业大学的研究团队于2025年提出的一个专注于检测和定位扩散生成图像的数据集。随着Stable Diffusion等先进文本到图像（T2I）生成模型的兴起，数字内容创作的边界逐渐模糊，使得区分真实与AI生成内容变得愈发困难。OpenSDID的创建旨在解决这一挑战，通过模拟开放世界中的多样化用户偏好、快速迭代的模型创新以及全局与局部图像操作的复杂性，为相关研究提供了一个全面且现实的基准数据集。该数据集包含30万张真实图像和45万张由多种扩散模型生成的伪造图像，涵盖了从全局合成到局部编辑的多种操作类型，显著推动了数字内容真实性检测领域的研究进展。

当前挑战

OpenSDID面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，OpenSDID旨在解决开放世界中扩散生成图像的检测与定位问题，其核心挑战包括：1）用户多样性带来的风格、主题和创意意图的广泛分布；2）扩散模型快速迭代导致的生成图像特征的高度可变性；3）全局合成与局部编辑并存的复杂操作范围。在构建过程中，挑战主要来自：1）如何利用多模态视觉语言模型（VLMs）生成多样化的文本提示以模拟真实用户行为；2）整合多种先进扩散模型（如Stable Diffusion系列和Flux.1）以覆盖不同的视觉特征；3）通过Segment Anything Model（SAM）和Florence 2实现精确的区域掩码生成，以支持复杂的局部编辑操作。这些挑战使得OpenSDID成为一个具有高度复杂性和现实意义的数据集。

常用场景

经典使用场景

在数字内容真实性验证领域，OpenSDID数据集通过整合多种先进视觉语言模型和扩散模型，为检测和定位AI生成图像提供了标准化测试平台。其独特价值在于模拟开放环境中用户偏好的多样性（如通过LLaVA等模型生成多样化文本指令）、模型架构的创新性（涵盖SD1.5至SD3等五代扩散模型）以及操作范围的全面性（支持全局生成与局部编辑的混合任务），这使得该数据集成为评估检测算法在复杂开放场景下泛化能力的黄金标准。

衍生相关工作

OpenSDID的发布催生了多项重要研究：在模型架构层面，基于SPM框架衍生了MaskCLIP及其变体（如结合SAM的增强版）；在算法创新方面，启发了DOLOS等针对扩散图像的弱监督定位方法；在测评体系上，推动了GenImage等基准的升级迭代。这些工作共同构成了AI生成内容检测的新兴技术生态，其中IML-ViT和DeCLIP等后续研究通过引入视觉Transformer和跨模态对比学习，进一步提升了开放场景下的检测鲁棒性。

数据集最近研究