five

DF40|Deepfake数据集|内容检测数据集

收藏
github2024-06-19 更新2024-06-28 收录
Deepfake
内容检测
下载链接:
https://github.com/YZY-stack/DF40
下载链接
链接失效反馈
资源简介:
DF40数据集包含40种不同的deepfake技术,包括10种面部交换方法、13种面部重演方法、12种全脸合成方法和5种面部编辑,旨在检测当前最先进的deepfakes和AIGC。数据集包含百万级别的图像和视频数据,使用流行的生成软件和方法创建,如HeyGen, MidJourney, DeepFaceLab等,以及最新发布的DiT, SiT, PixArt-α等。
创建时间:
2024-06-19
原始信息汇总

DF40 数据集概述

数据集亮点

伪造多样性

  • DF40 数据集包含 40 种不同的深度伪造技术,包括代表性和最先进(SOTA)的方法。
  • 具体包括 10 种换脸方法、13 种面部重演方法、12 种全脸合成方法和 5 种面部编辑方法。

伪造真实性

  • 数据集包括由流行生成软件和方法创建的逼真深度伪造数据,例如 HeyGen、MidJourney、DeepFaceLab 等。
  • 还包括最新发布的 DiT、SiT、PixArt-$alpha$ 等方法。

伪造规模

  • DF40 提供百万级的深度伪造图像和视频数据。

数据集详细信息

数据类型及方法

类型 ID-Number 方法 下载链接 可视化示例
换脸 (FS) 1 FSGAN 即将推出 示例
2 FaceSwap 即将推出 示例
3 SimSwap 即将推出 示例
4 InSwapper 即将推出 示例
5 BlendFace 即将推出 示例
6 UniFace 即将推出 示例
7 MobileSwap 即将推出 示例
8 e4s 即将推出 示例
9 FaceDancer 即将推出 示例
10 DeepFaceLab 即将推出 示例
面部重演 (FR) 11 FOMM 即将推出 示例
12 FS_vid2vid 即将推出 示例
13 Wav2Lip 即将推出 示例
14 MRAA 即将推出 示例
15 OneShot 即将推出 示例
16 PIRender 即将推出 示例
17 TPSM 即将推出 示例
18 LIA 即将推出 示例
19 DaGAN 即将推出 示例
20 SadTalker 即将推出 示例
21 MCNet 即将推出 示例
22 HyperReenact 即将推出 示例
23 HeyGen 即将推出 示例
全脸合成 (EFS) 24 VQGAN 即将推出 示例
25 StyleGAN2 即将推出 示例
26 StyleGAN3 即将推出 示例
27 StyleGAN-XL 即将推出 示例
28 SD-2.1 即将推出 示例
29 DDPM 即将推出 示例
30 RDDM 即将推出 示例
31 PixArt-$alpha$ 即将推出 示例
32 DiT-XL/2 即将推出 示例
33 SiT-XL/2 即将推出 示例
34 MidJounery6 即将推出 示例
35 WhichisReal 即将推出 示例
面部编辑 (FE) 36 CollabDiff 即将推出 示例
37 e4e 即将推出 示例
38 StarGAN 即将推出 示例
39 StarGANv2 即将推出
40 StyleCLIP 即将推出 示例

可视化示例

  1. 换脸 (FS) 方法的示例样本: FS 示例

  2. 面部重演 (FR) 方法的示例样本: FR 示例

  3. 全脸合成 (EFS) 方法的示例样本: EFS 示例

  4. 面部编辑 (FE) 方法的示例样本: FE 示例

AI搜集汇总
数据集介绍
构建方式
DF40数据集的构建基于40种不同的深度伪造技术,涵盖了面部交换、面部重演、全脸合成和面部编辑四大类别。这些技术包括了当前最先进的生成方法,如HeyGen、MidJourney、DeepFaceLab等。数据集的构建过程中,研究人员对这些技术进行了详细的分类和标注,确保每种技术的数据都能被准确识别和使用。此外,数据集还提供了百万级别的高质量图像和视频数据,确保了数据的真实性和多样性。
特点
DF40数据集的主要特点在于其高度的伪造多样性和真实性。数据集包含了40种不同的深度伪造技术,每种技术都生成了大量的高质量数据,能够有效模拟现实世界中的深度伪造情况。此外,数据集还提供了数据对齐功能,使得用户可以在不同的数据域之间进行训练和测试,进一步提升了数据集的实用性和研究价值。
使用方法
DF40数据集的使用方法相对简单。首先,用户需要下载数据集和相关的模型检查点,这些资源可以通过提供的链接获取。接着,用户可以通过运行提供的安装脚本来配置所需的库和环境。在数据集准备好后,用户可以根据需要选择特定的深度伪造技术数据进行训练或测试。数据集还提供了详细的统计描述和可视化示例,帮助用户更好地理解和使用数据。
背景与挑战
背景概述
DF40数据集,由一支专注于下一代深度伪造检测的研究团队创建,旨在应对日益复杂的深度伪造技术。该数据集于2024年由主要研究人员或机构发布,其核心研究问题是如何有效识别和区分多种先进的深度伪造方法。DF40数据集包含了40种不同的深度伪造技术,涵盖了面部交换、面部重演、全脸合成和面部编辑等多个领域,为研究人员提供了一个全面且多样化的评估平台。该数据集的发布不仅推动了深度伪造检测技术的发展,也为相关领域的研究提供了宝贵的资源。
当前挑战
DF40数据集在构建过程中面临了多重挑战。首先,收集和生成40种不同的深度伪造技术需要大量的计算资源和专业知识,确保每种技术的真实性和多样性是一个巨大的挑战。其次,数据集的规模达到了百万级别,如何有效地管理和存储这些数据也是一个重要问题。此外,确保数据集中的伪造方法与实际应用中的技术保持同步,以便于训练和测试模型的有效性,也是一项持续的挑战。最后,数据集的多样性和复杂性要求研究人员开发更加精细和鲁棒的检测算法,以应对不断进化的深度伪造技术。
常用场景
经典使用场景
DF40数据集在深度伪造检测领域中具有经典的使用场景,主要用于训练和评估深度伪造检测模型。通过包含40种不同的深度伪造技术,该数据集能够全面覆盖当前最先进的深度伪造方法,从而为研究人员提供了一个强大的基准来测试和改进他们的检测算法。
解决学术问题
DF40数据集解决了深度伪造检测领域中的多个关键学术问题。首先,它通过提供多样化的伪造数据,帮助研究人员开发能够识别各种伪造技术的通用检测模型。其次,其大规模的数据量和高真实度的伪造样本,使得模型能够在实际应用中具备更高的鲁棒性和准确性。此外,数据集的跨域对齐特性,还促进了跨域检测技术的研究,提升了模型的泛化能力。
衍生相关工作
DF40数据集的发布催生了一系列相关的经典工作。许多研究团队基于该数据集进行了深入的实验和分析,提出了多种新颖的检测算法和模型架构。例如,一些研究通过结合多模态信息,提升了检测的准确性;另一些研究则专注于开发轻量级模型,以适应移动设备和实时检测的需求。此外,DF40数据集还促进了跨学科的合作,推动了计算机视觉、机器学习和网络安全等领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

金庸语料库

从金庸15部小说中收集了1373个人名、292个地名、384个武功名称、119种武器名称、97个门派名称。

github 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2024)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2024年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2024)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

World Bank Open Data

World Bank Open Data 是一个包含全球经济、社会和环境指标的开放数据集。它提供了来自世界银行和其他国际组织的数据,涵盖了多个主题,如人口统计、教育、健康、金融、环境等。数据集包括时间序列数据和地理空间数据,支持全球范围内的分析和研究。

data.worldbank.org 收录