ForgeryNet
收藏arXiv2021-07-14 更新2024-06-21 收录
下载链接:
https://yinanhe.github.io/projects/forgerynet.html
下载链接
链接失效反馈官方服务:
资源简介:
ForgeryNet是一个大规模的人脸伪造数据集,由商汤科技研究创建,包含数千个主题、多种操纵方法和多样的重新渲染过程。数据集大小为290万张图像和221,247个视频,数据来源于四个不同的数据集。创建过程中,采用了15种图像级操纵方法和8种视频级操纵方法。ForgeryNet的应用领域包括图像和视频分类、空间和时间伪造定位,旨在解决真实世界中的数字伪造问题。
ForgeryNet is a large-scale face forgery dataset developed by SenseTime Research. It encompasses thousands of subjects, a wide range of manipulation techniques, and diverse re-rendering procedures. The dataset comprises 2.9 million images and 221,247 videos sourced from four distinct datasets. During the construction of this dataset, 15 image-level manipulation methods and 8 video-level manipulation methods were adopted. Its application domains include image and video classification, spatial and temporal forgery localization, aiming to address digital forgery issues in real-world scenarios.
提供机构:
商汤科技研究
创建时间:
2021-03-10
搜集汇总
数据集介绍

构建方式
在数字伪造分析领域,ForgeryNet数据集的构建体现了系统性与多样性原则。该数据集从四个公开人脸数据集中采集原始数据,涵盖广泛的身份、角度、表情和场景。通过15种伪造方法(包括身份保留与身份替换两大类)生成伪造样本,并引入36种扰动以模拟真实世界的数据退化过程。构建流程涵盖目标人脸检测、属性预测、伪造建模、重渲染及扰动添加,最终形成包含290万图像和22万视频的大规模资源。
使用方法
该数据集适用于训练与评估人脸伪造检测与定位模型。研究者可按7:1:2的比例划分训练、验证与测试集,利用提供的多粒度标签进行监督学习。对于图像任务,可进行帧内与跨伪造评估;对于视频任务,则支持基于片段或边界感知网络的分析。评估指标包括准确率、AUC、mAP及IoU等,以全面衡量模型性能。数据集的未修剪视频结构尤其适合开发真实场景下的时序伪造定位算法。
背景与挑战
背景概述
随着深度学习驱动的逼真人脸伪造技术迅猛发展,真实与伪造图像之间的界限日益模糊,对数字伪造分析进行基准测试与推进已成为紧迫议题。在此背景下,由商汤科技、上海人工智能实验室等机构的研究人员于2021年共同构建了ForgeryNet数据集。该数据集作为迄今为止规模最大的公开深度人脸伪造数据集,旨在通过提供海量且多样化的数据,支持图像与视频级别的伪造分类、空间定位及时间定位等四项核心任务,以应对现实世界中复杂多变的伪造威胁,推动下一代伪造检测算法的发展。
当前挑战
ForgeryNet致力于解决人脸伪造分析领域的多重挑战。在领域问题层面,现有数据集常因规模有限、多样性不足而导致模型性能饱和,难以泛化至真实场景;而ForgeryNet通过整合15种伪造方法、36种扰动及超过5400个主体,旨在提升模型在跨伪造类型、跨扰动条件下的鲁棒性与泛化能力。在构建过程中,挑战主要体现在确保原始数据的多样性与合法性、协调多种伪造技术的统一处理流程,以及为大规模数据生成精细的空间与时间标注,这些工作均需克服技术集成与资源调度的复杂性。
常用场景
经典使用场景
在数字媒体取证领域,ForgeryNet数据集被广泛用于评估和开发面部伪造检测算法。其经典使用场景包括图像与视频级别的伪造分类、空间伪造定位以及时序伪造定位四大任务。研究者利用该数据集的大规模、多样性及精细标注,训练深度学习模型以区分真实与伪造的人脸媒体,并精确定位篡改区域。例如,在图像伪造分类任务中,模型需进行二分类(真/假)、三分类(真/身份替换伪造/身份保留伪造)乃至多分类(识别15种具体伪造方法)的判别,全面模拟现实世界中复杂的伪造攻击场景。
解决学术问题
ForgeryNet有效解决了面部伪造检测研究中数据规模有限、多样性不足的瓶颈问题。此前数据集往往受制于较少的伪造方法、单一的场景或粗糙的标注,导致模型泛化能力弱。该数据集通过整合15种伪造方法、36种扰动处理及超过5400个主体,提供了迄今最大规模的公开深度伪造数据,支持跨伪造方法的泛化评估、细粒度空间定位及未修剪视频的时序分析。其意义在于推动了伪造检测从单一分类向多任务、细粒度分析的范式转变,为构建鲁棒、实用的取证系统奠定了数据基础。
实际应用
在实际应用中,ForgeryNet为社交媒体内容审核、司法取证及信息安全系统提供了关键支撑。例如,平台可利用基于该数据集训练的模型,自动检测用户上传视频中是否存在深度伪造内容,并及时拦截恶意传播。在司法领域,鉴定人员可借助空间定位技术,精准识别图像中被篡改的面部区域,为证据真实性评估提供技术依据。此外,该数据集涵盖的多种重渲染扰动(如压缩、模糊、噪声等)模拟了真实网络传输环境,使开发的检测系统能更好地适应实际场景中的质量退化挑战。
数据集最近研究
最新研究方向
随着深度伪造技术的飞速发展,数字媒体真实性鉴别的需求日益迫切。ForgeryNet作为目前规模最大、标注最全面的面部伪造数据集,为相关领域的前沿研究提供了关键支撑。当前研究聚焦于跨模态伪造检测、时空联合定位以及对抗性扰动鲁棒性三大方向。在跨模态检测方面,学者们致力于开发能够同时处理图像与视频数据的统一模型,以应对现实场景中多形态伪造内容的挑战。时空联合定位任务则强调对伪造区域在空间维度的精确分割与时间维度的片段定位,推动检测技术从二分类向精细化分析演进。此外,针对数据集引入的36种混合扰动,研究者正探索更具泛化能力的抗干扰算法,以提升模型在复杂传输环境下的稳定性。这些进展不仅深化了对深度伪造机理的理解,也为构建下一代数字取证系统奠定了坚实基础。
相关研究论文
- 1ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis商汤科技研究 · 2021年
以上内容由遇见数据集搜集并总结生成



