UADFV, EBV, Deepfake-TIMIT, DFFD, Wild Deepfake, Celeb-DF (v1), Celeb-DF (v2), DFDC, Deeper Forensic, FaceForensic++, DFGC, FFIW-10K, ForgeryNet|Deepfake检测数据集|人脸识别数据集

github2021-12-22 更新2024-05-31 收录

Deepfake检测

人脸识别

下载链接：

https://github.com/Daisy-Zhang/Awesome-Deepfakes

下载链接

链接失效反馈

资源简介：

这是一个包含多个与Deepfakes相关的数据集列表，每个数据集都有其特定的用途和特点，如UADFV用于检测不一致的头部姿势，EBV用于通过检测眼睛眨动来揭露AI生成的假脸视频等。

This is a list of multiple datasets related to Deepfakes, each with its specific purpose and characteristics. For instance, UADFV is utilized for detecting inconsistent head poses, while EBV is designed to expose AI-generated fake face videos by detecting eye blinking.

创建时间：

2021-06-30

原始信息汇总

数据集概述

视频数据集

数据集名称	论文链接	下载链接	真实视频数量	伪造视频数量
UADFV	Paper	-	49	49
EBV	Paper	Download	-	-
Deepfake-TIMIT	Paper	Download	320	640
DFFD	Paper	Download	1000	3000
Wild Deepfake	Paper	Download	-	-
Celeb-DF (v1)	Paper	Download	-	-
Celeb-DF (v2)	Paper	Download	590	5639
DFDC	Paper	Download	23,564	104,500
Deeper Forensic	Paper	Download	50,000	10,000
FaceForensic++	Paper	Download	1000	5000
DFGC	Paper	Dowload	-	-
FFIW-10K	Paper	Download	-	-
ForgeryNet	Paper	Download	99,630	121,617

图像数据集

数据集名称	论文链接	下载链接	真实图像数量	伪造图像数量
DFFD	Paper	Download	58,703	240,336
FFHQ	Paper	Download	-	70,000 (GAN-based)
iFakeFaceDB	Paper	Download	-	87,000 (StyleGAN)
100k Faces	-	Download	-	100,000 (StyleGAN)
ForgeryNet	Paper	Download	1,438,201	1,457,861

AI搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要基于深度伪造技术的应用，涵盖了从视频到图像的多种数据形式。通过使用生成对抗网络（GAN）等技术，研究人员生成了大量逼真的伪造视频和图像，并结合真实数据进行对比。每个子数据集如UADFV、Celeb-DF等，均通过特定的算法生成伪造内容，确保数据集的多样性和挑战性。此外，部分数据集还通过公开竞赛或合作研究的方式，进一步丰富了数据来源和质量。

特点

该数据集的特点在于其多样性和规模。涵盖了从低分辨率到高分辨率的视频和图像数据，且伪造内容涵盖了多种技术手段，如面部替换、表情合成等。数据集中的真实与伪造数据比例经过精心设计，确保了检测算法的鲁棒性。此外，部分数据集如DFDC和ForgeryNet，还提供了丰富的元数据，如伪造方法、时间戳等，为研究提供了更多的分析维度。

使用方法

该数据集的使用方法主要围绕深度伪造检测和生成技术的评估展开。研究人员可以通过下载数据集，使用提供的API或工具进行数据加载和预处理。数据集通常分为训练集和测试集，便于模型的训练和验证。此外，部分数据集还提供了基准测试和评估脚本，帮助研究人员快速评估算法的性能。通过结合公开的代码库和工具，用户可以进一步扩展数据集的应用场景，如实时检测、跨域迁移等。

背景与挑战

背景概述

随着深度学习技术的迅猛发展，Deepfake技术逐渐成为计算机视觉领域的研究热点。Deepfake技术通过生成对抗网络（GAN）等技术手段，能够生成高度逼真的虚假图像和视频，广泛应用于娱乐、影视制作等领域。然而，这一技术的滥用也带来了严重的社会问题，如虚假信息传播、隐私侵犯等。为了应对这些挑战，研究人员和机构开发了多个Deepfake数据集，如UADFV、Celeb-DF、DFDC等，旨在为Deepfake检测和生成技术提供高质量的数据支持。这些数据集不仅推动了Deepfake检测算法的进步，还为相关领域的研究提供了重要的实验平台。

当前挑战

Deepfake数据集在构建和应用过程中面临多重挑战。首先，Deepfake技术的不断演进使得虚假内容的生成质量越来越高，检测难度也随之增加。现有的数据集需要不断更新以应对新型Deepfake技术的挑战。其次，数据集的构建需要大量的真实和虚假数据，且数据的多样性和代表性至关重要，以确保检测算法的泛化能力。此外，数据集的标注和验证过程复杂，尤其是在大规模数据集中，确保数据的准确性和一致性是一个巨大的挑战。最后，隐私和伦理问题也是数据集构建过程中不可忽视的因素，如何在保护个人隐私的同时提供有效的数据支持，是研究人员需要权衡的重要问题。

常用场景

经典使用场景

在深度伪造技术的研究中，UADFV、Celeb-DF、DFDC等数据集被广泛应用于开发和测试深度伪造检测算法。这些数据集通过提供大量真实与伪造的视频和图像，帮助研究人员评估检测模型的性能，尤其是在处理高分辨率、复杂背景和多样化伪造技术时的表现。

实际应用

在实际应用中，这些数据集被用于开发社交媒体平台、新闻媒体和执法机构的深度伪造检测工具。例如，社交媒体平台可以利用这些数据集训练模型，自动识别并标记伪造内容，防止虚假信息的传播。执法机构则可以通过这些工具识别伪造证据，提升案件侦破的准确性。

衍生相关工作

基于这些数据集，衍生了许多经典的研究工作。例如，Celeb-DF数据集推动了基于深度学习的伪造检测算法的发展，而DFDC数据集则催生了多模态检测方法的研究。此外，FaceForensic++数据集为伪造视频的细粒度分析提供了重要支持，推动了伪造技术溯源和反制策略的研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。