OpenSDID|图像检测数据集|扩散生成图像数据集
收藏OpenSDI数据集概述
数据集简介
- 名称: OpenSDID (Open-world Spotting of Diffusion Images Dataset)
- 目的: 解决开放世界中识别扩散生成图像的挑战
- 特点:
- 模拟多样化的用户意图和创意风格
- 包含多种先进扩散模型生成的图像
- 涵盖从全局图像合成到局部编辑的全方位操作
数据集统计
模型 | 训练集 | 测试集 | 总计 | ||
---|---|---|---|---|---|
真实 | 生成 | 真实 | 生成 | 图像数 | |
SD1.5 | 100K | 100K | 10K | 10K | 220K |
SD2.1 | - | - | 10K | 10K | 20K |
SDXL | - | - | 10K | 10K | 20K |
SD3 | - | - | 10K | 10K | 20K |
Flux.1 | - | - | 10K | 10K | 20K |
总计 | 100K | 100K | 50K | 50K | 300K |
包含模型
- SD1.5
- SD2.1
- SDXL
- SD3
- Flux.1
下载信息
- 训练集: https://huggingface.co/datasets/nebula/OpenSDI_train
- 测试集: https://huggingface.co/datasets/nebula/OpenSDI_test
- 许可: CC BY-SA 4.0
- 来源: 真实图像来自megalith-10m数据集
评估与贡献
- 排行榜: https://iamwangyabin.github.io/OpenSDI/
- 推荐工具: IMDLBenCo (https://github.com/scu-zjz/IMDLBenCo)
相关论文
- 标题: OpenSDI: Spotting Diffusion-Generated Images in the Open World
- 作者: Wang, Yabin; Huang, Zhiwu; Hong, Xiaopeng
- 年份: 2025
- arXiv: https://arxiv.org/abs/2503.19653

- 1OpenSDI: Spotting Diffusion-Generated Images in the Open World西安交通大学, 南安普顿大学, 哈尔滨工业大学 · 2025年
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
CrowdHuman
CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。
github 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录