OpenMMSec

Name: OpenMMSec
Creator: 四川大学; 蚂蚁集团; 香港科技大学
Published: 2026-02-06 21:03:26
License: 暂无描述

arXiv2026-02-06 更新2026-02-10 收录

下载链接：

https://github.com/scu-zjz/SICA_OpenMMSec

下载链接

链接失效反馈

官方服务：

资源简介：

OpenMMSec是由四川大学和蚂蚁集团等机构构建的首个面向伪造图像检测（FID）任务的大规模综合数据集，涵盖Deepfake、AIGC、IMDL和Doc四个子领域。该数据集整合了19个公开取证数据集，包含33万+样本和98种伪造类型，通过精细划分15个主要伪造类型实现数据平衡。数据来源覆盖10+真实世界数据集，保留了像素级掩模以支持定位研究。其构建过程采用多源采样和类型对齐策略，旨在解决跨域伪造检测中的特征空间坍塌问题，为开发统一检测模型提供系统化评估基准。

OpenMMSec is the first large-scale comprehensive dataset for the forged image detection (FID) task, constructed by Sichuan University, Ant Group and other institutions. It covers four sub-fields including Deepfake, AIGC, IMDL and Doc. This dataset integrates 19 publicly available forensic datasets, containing over 330,000 samples and 98 forgery types, and achieves data balance through fine-grained division of 15 major forgery categories. Its data sources cover more than 10 real-world datasets, with pixel-level masks retained to support localization research. The construction of the dataset adopts multi-source sampling and type alignment strategies, aiming to solve the feature space collapse problem in cross-domain forgery detection, and provide a systematic evaluation benchmark for the development of unified detection models.

提供机构：

四川大学; 蚂蚁集团; 香港科技大学

创建时间：

2026-02-06

原始信息汇总

数据集概述

数据集名称

OpenMMSec

数据集简介

OpenMMSec 是首个为假图像检测设计的综合性数据集。

数据集用途

该数据集设计用于假图像检测，涵盖4个图像取证领域。

获取方式

如需获取该数据集，可通过电子邮件联系：2500074187@qq.com。

相关研究

该数据集与论文《Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction》及其中提出的SICA方法相关联。

搜集汇总

数据集介绍

构建方式

在多媒体安全领域，构建一个全面且具有代表性的数据集对于推动伪造图像检测研究至关重要。OpenMMSec数据集通过系统整合来自19个公开法证数据集的数据，精心构建而成。该数据集以伪造类型为核心组织维度，涵盖了Deepfake、AIGC、IMDL和Doc四个子领域的15种主要伪造类型和98种细粒度伪造类型。为确保数据的多样性和平衡性，研究团队从超过10个真实世界数据集中采集真实图像，并对各类伪造类型的样本量进行了仔细校准，最终汇集了超过33万张图像。数据划分策略以细粒度伪造类型为依据，将26种类型用于训练和验证，其余72种类型用于测试，旨在公平评估模型对未见伪造技术的泛化能力。

特点

OpenMMSec数据集的核心特点在于其前所未有的全面性与系统性。作为首个专为统一伪造图像检测任务定制的大规模基准，它突破了传统数据集局限于单一子领域的壁垒，实现了跨Deepfake、AIGC、IMDL和Doc四大法证子领域的全覆盖。数据集不仅样本规模庞大，更在伪造类型的多样性和精细度上设立了新标准，囊括了98种细粒度伪造技术，几乎涵盖了当前已知的主流图像篡改方法。此外，数据集强调真实图像来源的丰富性，通过整合多个独立真实图像集，有效缓解了内容偏差问题，为模型学习普适性伪造痕迹而非数据集特定模式提供了坚实基础。对于支持定位任务的数据，原始像素级掩码得以保留，进一步拓展了其研究价值。

使用方法

OpenMMSec数据集为系统评估伪造图像检测模型的性能与泛化能力提供了标准化框架。研究者在利用该数据集时，应遵循其基于伪造类型的划分协议，使用指定的26种训练类型进行模型训练与验证，并在其余72种未见测试类型上评估模型的跨域泛化性能。这种划分方式模拟了真实法证场景中检测未知伪造技术的挑战。数据集支持图像级别的二分类任务（真实/伪造），对于IMDL和Doc子集，还可用于像素级的篡改定位研究。在模型开发过程中，鼓励研究者利用数据集丰富的元数据（如伪造类型、来源数据集）进行细粒度分析，以深入理解模型在不同伪造技术和内容分布上的行为差异，从而推动更具鲁棒性和通用性的检测范式发展。

背景与挑战

背景概述

OpenMMSec数据集由四川大学、蚂蚁集团和香港科技大学的研究团队于2026年构建，旨在解决跨域假图像检测这一核心研究问题。该数据集整合了来自19个公开法证数据集的超过33万张图像，涵盖Deepfake、AIGC、IMDL和Doc四大子领域，包含98种精细伪造类型。其创建背景源于现实法证场景中对统一检测模型的迫切需求，即在不预先知晓伪造方法的情况下，实现跨子领域的通用假图像检测。OpenMMSec通过平衡的数据量、丰富的图像来源和多样化的伪造类型，为系统性评估FID模型提供了首个全面且定制化的基准，显著推动了图像法证领域向统一检测范式的发展。

当前挑战

OpenMMSec数据集所应对的核心挑战在于实现跨域假图像检测中的“统一而具判别性”特征空间重建。具体而言，不同子领域的伪造痕迹存在显著的异质性现象，例如Deepfake依赖面部生理伪影，而Doc领域涉及文本形态伪影，这些域特异性伪影在概念上难以迁移。直接训练单一模型会导致特征空间坍塌，模型仅能捕获共享成分而丢弃关键域特异性信息。在构建过程中，挑战包括如何从多样化的公开数据集中采样并整合，以确保数据量平衡、伪造类型全面且图像来源丰富，同时避免引入内容偏差，并支持未来定位研究的需求。

常用场景

经典使用场景

在多媒体安全领域，OpenMMSec数据集作为首个专为跨域伪造图像检测设计的综合性基准，其经典应用场景在于系统评估单一体模型在Deepfake、AIGC、IMDL和Doc四个子域中的泛化能力。该数据集通过整合19个公开数据集，涵盖98种伪造类型与超过33万样本，为研究者提供了统一的训练与测试平台，以探索异构伪造痕迹下的特征空间重建问题。

解决学术问题

OpenMMSec核心解决了伪造图像检测中因异构现象导致的特征空间塌陷学术难题。该数据集首次系统揭示了不同子域间伪造痕迹的本质差异，使得研究者能够针对“统一而判别”的特征空间重建开展实证分析。通过提供平衡且多样化的数据支持，它推动了语义诱导约束适应等新范式的验证，为单一体模型在跨域检测中的性能瓶颈提供了根本性解决方案。

衍生相关工作

基于OpenMMSec数据集，研究者已衍生出一系列经典工作，其中语义诱导约束适应范式通过冻结语义骨干网络与低秩自适应机制，首次实现了单一体模型在跨域检测中的性能超越。该数据集进一步支撑了异构特征空间分析、多尺度伪造痕迹建模等研究方向，并为后续的通用检测框架如UniShield等提供了基准测试环境，持续推动跨域伪造检测领域的算法创新与理论发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集