DRAGON|数字取证数据集|图像分析数据集
收藏DRAGON 数据集概述
基本信息
- 名称: DRAGON (Dataset of Realistic imAges Generated by diffusiON models)
- 许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
- 任务类别: 图像分类 (image-classification)
- 数据规模: 1M < n < 10M
- 数据集大小: 250万训练图像 + 10万测试图像
- 生成模型数量: 25种扩散模型
数据集描述
- 目的: 支持开发多媒体取证工具,专注于合成图像检测和模型归属任务
- 特点:
- 包含多样化主题的合成图像
- 提供多种规模子集(从XS到XL)
- 包含专门设计的测试集作为标准化基准
数据集结构
- 标注信息: 每张图像标注了生成模型和输入提示
- 生成方式:
- 基于1,000个ImageNet类别生成提示
- 每个模型每个提示生成100张训练图像和4张测试图像
子集规模
子集名称 | 训练图像数量 | 测试图像数量 | 提示数量 |
---|---|---|---|
ExtraSmall (XS) | 250 | 1,000 | 10 |
Small (S) | 2,500 | 10,000 | 100 |
Regular (R) | 25,000 | 10,000 | 100 |
Large (L) | 250,000 | 100,000 | 1,000 |
ExtraLarge (XL) | 2,500,000 | 100,000 | 1,000 |
文件配置
- ExtraSmall:
- 训练: train/xs/dragon_train_xs.tar
- 测试: test/dragon_test_00.tar
- Small:
- 训练: train/dragon_train_000.tar
- 测试: test/dragon_test_0?.tar
- Regular:
- 训练: train/dragon_train_00?.tar
- 测试: test/dragon_test_0?.tar
- Large:
- 训练: train/dragon_train_0??.tar
- 测试: test/dragon_test_??.tar
- ExtraLarge:
- 训练: train/dragon_train_???.tar
- 测试: test/dragon_test_??.tar
引用信息
bibtex @misc{bertazzini2025dragon, title={DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models}, author={Giulia Bertazzini and Daniele Baracchi and Dasara Shullani and Isao Echizen and Alessandro Piva}, year={2025}, eprint={2505.11257}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.11257}, }
联系方式
- Giulia Bertazzini: giulia.bertazzini@unifi.it
- Daniele Baracchi: daniele.baracchi@unifi.it

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
Arizona Cities by Population
A dataset listing Arizona cities by population for 2024.
www.arizona-demographics.com 收录