siddharthksah/DeepSafe-benchmark
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/siddharthksah/DeepSafe-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
# DeepSafe Multi-Modal Deepfake Detection Benchmark
A balanced, multi-modal benchmark dataset for evaluating deepfake detection systems across images, audio, and video.
## Dataset Summary
| Modality | Real | Fake | Total |
|----------|------|------|-------|
| Images | 2,000 | 2,000 | 4,000 |
| Audio | 1,000 | 1,000 | 2,000 |
| Video | 100 | 100 | 200 |
| **Total** | **3,100** | **3,100** | **6,200** |
## Structure
```
images/
real/{source}/{id}.{ext}
fake/{generator}/{id}.{ext}
audio/
real/{source}/{id}.wav
fake/{generator}/{id}.wav
video/
real/{source}/{id}.mp4
fake/{generator}/{id}.mp4
metadata.json
```
## Generators Covered
### Images (34+ generators)
**Real sources:** COCO, OpenFake
**Fake generators:** DALL-E 2, DALL-E 3, Midjourney v5/6/7, Stable Diffusion 1.3/1.4/2/3/XL, Flux 1, GPT Image 1, Grok 2, Imagen 3/4, Ideogram 2/3, Firefly, GLIDE, Recraft v2/v3, HiDream, Aurora, Chroma, Lumina, Mystic, Halfmoon, Frames, and more.
### Audio (25+ generators)
**Real sources:** ASVspoof, LibriSpeech, LJSpeech, VCTK, In-the-Wild, CodecFake
**Fake generators:** HiFiGAN, MelGAN, WaveGlow, Tacotron, Griffin-Lim, Parallel WaveGAN, Full-Band MelGAN, Conformer FastSpeech2, Neural Codec, WaveNet, ASVspoof attack types (A01-A06), and more.
### Video (15+ generators)
**Real sources:** MSRVTT, LAVDF
**Fake generators:** Sora, Gen-2, Moonvalley, MorphStudio, CRaFT-er, LaVie, ModelScope, Show-1, Hotshot, WildScrape, LAVDF manipulations (audio/video/both), and more.
## Metadata Format
`metadata.json` contains one entry per file:
```json
{
"id": "img_00001",
"path": "images/real/coco/img_00001.jpg",
"modality": "images",
"label": "real",
"generator": "coco",
"format": "jpg"
}
```
## Sampling Methodology
Files are stratified-sampled across generators using round-robin allocation to ensure balanced representation. Each generator contributes proportionally to its available pool size, preventing over-representation of any single source.
## License
This dataset aggregates samples from publicly available research datasets. Each source dataset retains its original license terms. This compilation is provided for research and benchmarking purposes.
## Citation
If you use this dataset, please cite:
```
@misc{deepsafe_benchmark_2026,
title={DeepSafe Multi-Modal Deepfake Detection Benchmark},
year={2026},
url={https://deepsafe.fyi}
}
```
提供机构:
siddharthksah
搜集汇总
数据集介绍

构建方式
在数字媒体内容真实性面临严峻挑战的背景下,DeepSafe-benchmark数据集通过精心设计的结构化方法构建而成。其构建过程采用了分层抽样与循环分配策略,从图像、音频和视频三大模态的公开研究数据集中系统性地采集样本。对于图像数据,真实样本源自COCO等权威数据集,而伪造样本则广泛覆盖了包括DALL-E系列、Stable Diffusion系列以及Midjourney等在内的三十余种主流生成模型。音频与视频模态同样遵循此原则,分别整合了ASVspoof、LibriSpeech等真实语料库以及Sora、Gen-2等前沿生成技术产生的合成内容。所有样本均通过元数据文件进行统一标注,确保了数据来源与属性的可追溯性,最终形成了一个在真实与伪造类别上严格平衡的多模态基准集合。
使用方法
该数据集主要服务于多模态深度伪造检测系统的评估与基准测试。研究人员可通过下载数据集并解析其目录结构及附带的metadata.json文件来访问数据。元数据中详细记录了每个文件的路径、模态、真伪标签以及具体的生成器信息,便于用户按需加载图像、音频或视频样本进行模型训练或测试。在具体应用中,开发者可以基于此数据集构建分类任务,训练模型以区分真实内容与由特定生成器合成的伪造内容,亦可在跨模态或跨生成器的设定下评估模型的鲁棒性与泛化性能。数据集遵循其各源数据集的原始许可协议,仅限用于学术研究与性能评测目的。
背景与挑战
背景概述
随着生成式人工智能技术的飞速发展,深度伪造内容在图像、音频和视频等多模态领域广泛传播,对数字媒体真实性和社会信任构成了严峻威胁。DeepSafe-benchmark数据集于2026年由相关研究团队构建,旨在为多模态深度伪造检测系统提供一个均衡、全面的评估基准。该数据集整合了来自COCO、ASVspoof、MSRVTT等公开研究数据集的真实样本,并覆盖了DALL-E系列、Sora、HiFiGAN等超过74种前沿生成模型合成的伪造内容,核心研究聚焦于如何有效鉴别跨模态的AI生成内容,以推动数字媒体取证与安全领域的技术进步。
当前挑战
在深度伪造检测领域,核心挑战在于模型需具备跨模态的泛化能力,以应对不断演进的生成技术所制造的高度逼真伪造内容,这些内容在视觉、听觉特征上与传统真实媒体愈发难以区分。数据集构建过程中,研究者面临多重困难:需从众多异构数据源中采集并平衡样本,确保图像、音频、视频各模态在真实与伪造类别间数量均衡;同时,必须广泛涵盖DALL-E、Sora等多样化的生成器,以反映实际应用中复杂的伪造场景,并通过分层抽样和循环分配策略避免单一数据源的主导,从而保证评估的公正性与全面性。
常用场景
经典使用场景
在深度伪造技术迅猛发展的背景下,DeepSafe-benchmark数据集为多模态伪造检测研究提供了标准化的评估基准。该数据集广泛应用于训练和验证深度学习模型,以识别图像、音频和视频中的伪造内容。研究者利用其平衡的样本分布,系统性地评估模型在不同生成器下的泛化能力,推动检测算法在复杂多模态场景中的性能提升。
解决学术问题
该数据集有效解决了深度伪造检测领域的关键学术问题,包括多模态伪造内容的统一评估框架缺失、单一生成器过拟合以及跨模态检测模型泛化能力不足等挑战。通过整合34种以上图像生成器、25种以上音频生成器和15种以上视频生成器的样本,它促进了检测算法在多样化伪造技术下的鲁棒性研究,为学术界提供了可复现的基准测试环境。
实际应用
在实际应用中,DeepSafe-benchmark数据集被广泛部署于社交媒体内容审核、金融身份验证和司法取证等领域。其多模态特性支持开发集成化检测系统,帮助平台自动识别伪造图像、合成语音和篡改视频,从而遏制虚假信息传播。该数据集还为安全机构提供了技术评估工具,助力制定针对新兴深度伪造威胁的防御策略。
数据集最近研究
最新研究方向
随着生成式人工智能技术的飞速发展,多模态深度伪造内容在图像、音频和视频领域的泛滥已成为数字安全领域的核心挑战。DeepSafe-benchmark作为平衡的多模态检测基准,其最新研究聚焦于跨模态联合表征学习与泛化性检测框架的构建。前沿工作致力于探索Transformer与图神经网络融合的架构,以捕捉不同伪造生成器间的细微伪影特征,同时应对Sora、Gen-2等新兴视频生成模型带来的检测难题。相关研究亦关注在真实场景中对抗自适应攻击的鲁棒性提升,通过元学习策略优化模型对未知生成器的泛化能力,这为构建下一代可信多媒体认证系统提供了关键支撑。
以上内容由遇见数据集搜集并总结生成



