OpenForensics

Name: OpenForensics
Creator: 国家信息学研究所
Published: 2021-07-30 16:15:41
License: 暂无描述

arXiv2021-07-30 更新2024-06-21 收录

下载链接：

https://sites.google.com/view/ltnghia/research/openforensics

下载链接

链接失效反馈

官方服务：

资源简介：

OpenForensics是由国家信息学研究所创建的大型数据集，专注于多面伪造检测和分割。该数据集包含115,325张不受限制的图像，涵盖多种背景和多个人物，年龄、性别、姿势、位置和面部遮挡各异。数据集通过丰富的面部级标注支持多种任务，如伪造类别、边界框、分割掩码、伪造边界和一般面部地标。OpenForensics不仅支持多面伪造检测和分割任务，还适用于一般的面部相关任务，旨在推动深度伪造预防和一般面部检测的研究。

OpenForensics is a large-scale dataset created by the National Institute of Informatics, focusing on multi-face forgery detection and segmentation. This dataset contains 115,325 unconstrained images, covering diverse backgrounds and multiple subjects with varying ages, genders, poses, positions, and facial occlusions. The dataset supports a wide range of tasks via rich facial-level annotations, including forgery categories, bounding boxes, segmentation masks, forgery boundaries, and general facial landmarks. OpenForensics not only supports multi-face forgery detection and segmentation tasks but also applies to general facial-related tasks, aiming to advance research in deepfake prevention and general facial detection.

提供机构：

国家信息学研究所

创建时间：

2021-07-30

搜集汇总

数据集介绍

构建方式

在数字媒体安全领域，OpenForensics数据集的构建采用了系统化的合成流程。首先从Google Open Images中筛选出45,473张包含真实人脸的原始图像作为基准数据。随后通过生成对抗网络技术，在保持原始面部姿态与光照条件的前提下，随机生成无限数量的伪造身份特征。合成过程中采用泊松融合与色彩适配算法优化边缘自然度，并通过XceptionNet分类器进行伪造质量验证，最终形成包含115,325张图像、334,136个人脸标注的大规模数据集。

特点

该数据集在伪造检测领域展现出多重突破性特征。其图像场景涵盖室内外多样化环境，平均每张图像包含2.9个人脸，突破了传统数据集的单脸限制。标注体系包含伪造类别、边界框、分割掩码、伪造边界及面部关键点等多维度信息，支持检测与分割双重任务。特别构建的测试挑战子集通过色彩调整、边缘处理、图像腐蚀等六类扰动操作，模拟真实世界复杂场景，显著提升了模型的泛化需求。

使用方法

研究者在应用OpenForensics数据集时，可遵循多层次任务框架。数据集已划分为训练集、验证集、测试开发集和测试挑战集，支持端到端的模型训练与评估。针对多脸伪造检测任务，可采用Mask R-CNN、BlendMask等实例分割架构进行基准测试；对于分割任务，可利用精细的面部掩码标注训练像素级分类模型。评估指标兼容COCO标准的平均精度与局部召回精度，研究者还可通过挑战集的扰动数据验证模型在未见过场景下的鲁棒性表现。

背景与挑战

背景概述

随着深度伪造技术的快速演进，伪造人脸在社交媒体中的泛滥引发了公众与监管机构的广泛担忧。在此背景下，由日本国立情报学研究所、综合研究大学院大学及东京大学的研究团队于2021年联合构建了OpenForensics数据集。该数据集旨在应对自然场景下多张人脸中伪造面孔的检测与分割这一核心研究问题，突破了传统深度伪造识别仅针对单一、清晰正面人脸的局限。作为首个专为多脸伪造检测与分割设计的大规模数据集，OpenForensics包含11.5万张图像与33.4万个人脸标注，以其丰富的场景多样性和精细的实例级标注，显著推动了伪造取证与通用人脸分析领域的研究进程。

当前挑战

OpenForensics数据集致力于解决自然场景下多脸伪造检测与分割这一新兴任务的挑战，其核心在于模型需在复杂背景、多人共存、姿态多变及部分遮挡的条件下，精准定位并分割出伪造人脸。构建过程中的挑战尤为突出：首先，为模拟真实世界分布，需合成视觉质量高、边界自然的伪造人脸，研究团队通过结合GAN生成与泊松融合技术，并引入色彩适配算法，以克服传统方法生成分辨率低、边界伪影明显的问题；其次，为确保数据集的挑战性与泛化能力，需对原始图像施加涵盖色彩、边缘、块状失真、图像腐蚀等多维度的扰动增强，以构建接近真实复杂场景的测试子集。

常用场景

经典使用场景

在数字媒体取证领域，OpenForensics数据集为多脸伪造检测与分割任务提供了首个大规模、高挑战性的基准平台。该数据集通过精心设计的合成流程，在自然场景图像中嵌入了大量高真实度的伪造人脸，并提供了像素级的分割掩码与边界框标注。研究者利用该数据集训练和评估各类实例检测与分割模型，如Mask R-CNN、BlendMask和SOLO等，以探索模型在复杂真实场景下同时定位并分割多个伪造人脸的能力。其丰富的场景多样性和精细的标注体系，使得该数据集成为推动多脸伪造分析从实验室走向实际应用的关键基础设施。

解决学术问题

OpenForensics数据集有效解决了传统深度伪造检测研究中的若干核心局限。以往工作多集中于单张裁剪人脸的二元分类任务，且依赖独立的人脸检测模块，难以处理自然场景中多张人脸共存的情况。该数据集通过提供大规模、带有多任务标注的自然场景图像，首次将研究焦点拓展至多脸伪造检测与分割这一更具挑战性的方向。它促使学术界开发能够端到端处理多张人脸、并精确定位伪造区域的模型，从而弥合了实验室环境与真实世界应用之间的鸿沟，为构建鲁棒且可解释的伪造媒体分析系统奠定了数据基础。

衍生相关工作

基于OpenForensics数据集，衍生出了一系列围绕多脸伪造分析与通用人脸理解的研究工作。在伪造检测方向，研究者们探索了更高效的实时检测架构、针对小尺寸伪造人脸的优化策略，以及提升模型对未知扰动鲁棒性的方法。其精细的掩码与边界标注也催生了针对伪造边界定位、伪造区域质量评估等细分任务的研究。此外，由于数据集包含大量高质量的真实人脸标注，它也被广泛用于通用人脸检测与分割模型的预训练与性能评估，推动了人脸分析技术在鲁棒性、泛化能力方面的进步，形成了从伪造防治到基础视觉任务研究的良性互动。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集