five

OpenSDID|图像检测数据集|扩散生成图像数据集

收藏
arXiv2025-03-25 更新2025-03-27 收录
图像检测
扩散生成图像
下载链接:
https://github.com/iamwangyabin/OpenSDI
下载链接
链接失效反馈
资源简介:
OpenSDID数据集是由西安交通大学、南安普顿大学和哈尔滨工业大学的研究人员创建的,旨在应对开放世界中检测扩散生成图像的挑战。该数据集通过使用大型视觉语言模型模拟开放世界的扩散操作,包含了用户多样性、模型创新性和操作范围广度三个关键维度。数据集由300,000个真实图像和450,000个伪造图像组成,涵盖了多种先进的扩散模型生成的图像,旨在全面模拟真实世界中的图像操作,为检测和定位任务提供了一个复杂且多样化的基准。
提供机构:
西安交通大学, 南安普顿大学, 哈尔滨工业大学
创建时间:
2025-03-25
原始信息汇总

OpenSDI数据集概述

数据集简介

  • 名称: OpenSDID (Open-world Spotting of Diffusion Images Dataset)
  • 目的: 解决开放世界中识别扩散生成图像的挑战
  • 特点:
    • 模拟多样化的用户意图和创意风格
    • 包含多种先进扩散模型生成的图像
    • 涵盖从全局图像合成到局部编辑的全方位操作

数据集统计

模型 训练集 测试集 总计
真实 生成 真实 生成 图像数
SD1.5 100K 100K 10K 10K 220K
SD2.1 - - 10K 10K 20K
SDXL - - 10K 10K 20K
SD3 - - 10K 10K 20K
Flux.1 - - 10K 10K 20K
总计 100K 100K 50K 50K 300K

包含模型

  • SD1.5
  • SD2.1
  • SDXL
  • SD3
  • Flux.1

下载信息

  • 训练集: https://huggingface.co/datasets/nebula/OpenSDI_train
  • 测试集: https://huggingface.co/datasets/nebula/OpenSDI_test
  • 许可: CC BY-SA 4.0
  • 来源: 真实图像来自megalith-10m数据集

评估与贡献

  • 排行榜: https://iamwangyabin.github.io/OpenSDI/
  • 推荐工具: IMDLBenCo (https://github.com/scu-zjz/IMDLBenCo)

相关论文

  • 标题: OpenSDI: Spotting Diffusion-Generated Images in the Open World
  • 作者: Wang, Yabin; Huang, Zhiwu; Hong, Xiaopeng
  • 年份: 2025
  • arXiv: https://arxiv.org/abs/2503.19653
AI搜集汇总
数据集介绍
main_image_url
构建方式
OpenSDID数据集的构建采用了多阶段自动化流程,首先从Megalith-10M数据库筛选真实图像,随后通过LLaMA3 Vision等先进视觉语言模型生成多样化编辑指令。为精确控制编辑区域,结合Florence-2和SAM模型实现开放词汇检测与细粒度分割。在生成阶段采用包括Stable Diffusion多版本和Flux.1在内的前沿扩散模型,通过调节推理步数、引导尺度等参数增强多样性,并利用CLIP模型进行图文相似度筛选确保质量。该流程创新性地整合了用户偏好模拟(通过VLMs)、模型创新覆盖(多版本扩散模型)和操作范围完整性(全局生成与局部编辑),构建了包含30万图像的基准数据集。
特点
OpenSDID的核心特征体现在三维度创新:用户多样性方面,通过多VLMs模拟真实用户行为生成风格迥异的编辑指令;模型创新性方面,囊括SD1.5至SD3等五代扩散模型及Florence-1架构,覆盖不同参数配置的生成特性;操作完整性方面,同时包含全局合成图像与基于SAM的局部编辑样本。数据集特别设计20%的测试集来自未见过的生成器,有效评估模型泛化能力。相比传统伪造数据集,其创新性地采用CLIP-guided质量过滤机制,确保90%以上样本的图文语义一致性,并包含像素级标注掩模支持定位任务。
使用方法
使用OpenSDID需区分检测与定位双任务范式。检测任务可采用图像级分类框架,建议以CLIP视觉编码器提取特征后接MLP分类头;定位任务推荐基于MAE或SAM的编码器-解码器架构,结合FPN处理多尺度特征。实验设置应严格遵循论文中的数据集划分,训练集仅包含SD1.5生成样本,测试时需评估跨模型泛化性能。针对开放世界场景,可采用论文提出的SPM框架,通过提示调优和注意力机制协同CLIP与MAE模型。数据预处理需保持512×512分辨率,并应用高斯模糊、JPEG压缩等退化操作进行鲁棒性验证。
背景与挑战
背景概述
OpenSDID(Open-world Spotting of Diffusion Images Dataset)是由西安交通大学、南安普顿大学和哈尔滨工业大学的研究团队于2025年提出的一个专注于检测和定位扩散生成图像的数据集。随着Stable Diffusion等先进文本到图像(T2I)生成模型的兴起,数字内容创作的边界逐渐模糊,使得区分真实与AI生成内容变得愈发困难。OpenSDID的创建旨在解决这一挑战,通过模拟开放世界中的多样化用户偏好、快速迭代的模型创新以及全局与局部图像操作的复杂性,为相关研究提供了一个全面且现实的基准数据集。该数据集包含30万张真实图像和45万张由多种扩散模型生成的伪造图像,涵盖了从全局合成到局部编辑的多种操作类型,显著推动了数字内容真实性检测领域的研究进展。
当前挑战
OpenSDID面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,OpenSDID旨在解决开放世界中扩散生成图像的检测与定位问题,其核心挑战包括:1)用户多样性带来的风格、主题和创意意图的广泛分布;2)扩散模型快速迭代导致的生成图像特征的高度可变性;3)全局合成与局部编辑并存的复杂操作范围。在构建过程中,挑战主要来自:1)如何利用多模态视觉语言模型(VLMs)生成多样化的文本提示以模拟真实用户行为;2)整合多种先进扩散模型(如Stable Diffusion系列和Flux.1)以覆盖不同的视觉特征;3)通过Segment Anything Model(SAM)和Florence 2实现精确的区域掩码生成,以支持复杂的局部编辑操作。这些挑战使得OpenSDID成为一个具有高度复杂性和现实意义的数据集。
常用场景
经典使用场景
在数字内容真实性验证领域,OpenSDID数据集通过整合多种先进视觉语言模型和扩散模型,为检测和定位AI生成图像提供了标准化测试平台。其独特价值在于模拟开放环境中用户偏好的多样性(如通过LLaVA等模型生成多样化文本指令)、模型架构的创新性(涵盖SD1.5至SD3等五代扩散模型)以及操作范围的全面性(支持全局生成与局部编辑的混合任务),这使得该数据集成为评估检测算法在复杂开放场景下泛化能力的黄金标准。
衍生相关工作
OpenSDID的发布催生了多项重要研究:在模型架构层面,基于SPM框架衍生了MaskCLIP及其变体(如结合SAM的增强版);在算法创新方面,启发了DOLOS等针对扩散图像的弱监督定位方法;在测评体系上,推动了GenImage等基准的升级迭代。这些工作共同构成了AI生成内容检测的新兴技术生态,其中IML-ViT和DeCLIP等后续研究通过引入视觉Transformer和跨模态对比学习,进一步提升了开放场景下的检测鲁棒性。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,扩散模型生成的图像在视觉逼真度上已达到以假乱真的水平,这为数字内容真实性认证带来了全新挑战。OpenSDID数据集应运而生,成为首个专注于开放环境下扩散生成图像检测与定位的大规模基准。该数据集通过整合多种先进视觉语言模型和扩散模型,模拟真实用户偏好差异、模型架构创新及全局/局部编辑场景,为研究者提供了前所未有的复杂测试环境。最新研究聚焦于预训练模型协同框架(SPM)的优化,特别是MaskCLIP模型通过融合CLIP的语义理解与MAE的空间重建能力,在跨模型泛化性能上取得突破性进展。相关工作还涉及生成模型快速迭代带来的检测技术适应性研究,以及多模态提示学习在内容认证中的创新应用,这些方向正推动着数字媒体取证领域向开放世界场景下的鲁棒性检测体系发展。
相关研究论文
  • 1
    OpenSDI: Spotting Diffusion-Generated Images in the Open World西安交通大学, 南安普顿大学, 哈尔滨工业大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录