Multi-dimensional Face Forgery Image (MFFI) dataset
收藏arXiv2025-09-06 更新2025-11-24 收录
下载链接:
https://github.com/inclusionConf/MFFI
下载链接
链接失效反馈资源简介:
MFFI数据集是一个针对现实场景的多维度人脸伪造图像数据集,旨在提升人脸伪造检测模型在现实场景中的适应性。该数据集在四个维度上进行了创新:更广泛的伪造方法、变化的面部场景、多样化的真实数据和多级退化操作。MFFI包含了50种不同的伪造方法,共1024K个图像样本,覆盖了从面部交换、面部重演、面部合成到面部编辑等多种伪造技术。数据集在场景复杂性、跨域泛化能力和检测难度梯度方面均优于现有公开数据集,为现实世界条件下的伪造人脸模拟提供了技术进步和实践效用。
提供机构:
Ant Group Hangzhou, China
创建时间:
2025-09-06
AI搜集汇总
数据集介绍

构建方式
在人工智能生成内容技术迅猛发展的背景下,MFFI数据集通过四维策略构建而成。该数据集整合了50种不同的伪造方法,涵盖人脸替换、人脸重演、全脸合成、人脸编辑、人脸超分辨率及人工Photoshop操作六大类别,并采用来自CelebA、RFW、CASIA-WebFace及自采中文名人数据集的多样化真实人脸数据作为基础。为模拟真实传播环境,对测试集施加了多级退化操作,包括模糊处理、噪声干扰和对抗攻击等,最终形成包含1024K样本的大规模数据集。
特点
MFFI数据集在深度伪造检测领域展现出多维度的创新特性。其覆盖了不同肤色、年龄、姿态及复杂拍摄场景的人脸图像,突破了传统数据集的单一性限制。通过集成最新商业工具与自采数据,实现了对未知伪造技术和多样真实源域的全方位模拟。数据集特别引入了传播退化因素,构建了具有梯度检测难度的测试环境,为模型在真实场景中的鲁棒性评估提供了坚实基础。
使用方法
该数据集适用于深度伪造检测模型的训练与评估,其结构化划分为训练集、验证集、测试集及退化测试集。研究者可通过基准实验进行域内与跨域泛化能力验证,利用多级退化测试集评估模型抗干扰性能。数据集支持空间域与频域检测器的对比分析,并为多模态大模型的零样本检测提供评估基准,推动面向真实场景的伪造检测技术发展。
背景与挑战
背景概述
随着人工智能生成内容的迅猛发展,面部伪造技术对社会安全构成严峻威胁。2025年由蚂蚁集团、合肥工业大学等机构联合推出的多维面部伪造图像数据集,聚焦于解决真实场景下面部伪造检测的泛化能力不足问题。该数据集整合了50种伪造技术,涵盖人脸替换、重演、全脸合成等六类操作,并包含1024K样本,通过多维度的数据构建策略显著提升了检测模型在复杂环境中的适应性。
当前挑战
该数据集致力于应对真实场景下面部伪造检测的核心挑战:一是技术迭代导致的未知伪造方法泛化难题,需覆盖扩散模型等新兴技术;二是构建过程中需平衡面部场景多样性,包括肤色、光照、遮挡等多维变量;三是真实数据源匮乏限制了模型跨领域性能,需融合多地域人脸数据;四是模拟网络传输中的退化效应时,需引入噪声、压缩等干扰因素以增强数据真实性。
常用场景
实际应用
在金融安全认证系统中,MFFI数据集为开发防欺诈检测模块提供了关键训练资源。金融机构利用该数据集训练的面部伪造检测模型,能够有效识别通过高级AI技术生成的虚假身份认证材料。社交媒体平台则借助基于MFFI训练的检测系统,自动筛查用户上传的疑似伪造内容,维护平台信息真实性。政府部门在网络安全监管中,同样依赖此类数据集提升对政治虚假宣传内容的识别精度,保护公共信息安全。
衍生相关工作
基于MFFI数据集的技术特性,研究社区衍生出多个重要研究方向。全球多媒体深度伪造检测挑战赛将该数据集作为核心基准,吸引了1500支团队参与,推动了检测算法的快速迭代。在模型架构方面,研究者开发了专门针对多维度伪造特征的融合网络,提升了跨技术泛化能力。对抗性攻击研究领域则利用数据集的退化操作模块,探索检测模型在对抗样本下的鲁棒性极限。这些工作共同构成了面向真实场景的深度伪造检测技术体系。
以上内容由AI搜集并总结生成



