five

ForensicHub

收藏
arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://github.com/scu-zjz/ForensicHub
下载链接
链接失效反馈
官方服务:
资源简介:
ForensicHub是一个统一的基准和代码库,旨在解决所有领域内的假图像检测和定位问题。该数据集涵盖了深度伪造检测、图像操作检测和定位、人工智能生成图像检测和文档图像操作定位四个领域,包含了23个数据集、42个基线模型、6个主干网络以及11个图像和像素级评估指标。ForensicHub通过模块化和配置驱动的架构,实现了跨数据集、转换、模型和评估器的可互换组件,允许灵活地组合所有领域的模型和数据进行训练和测试,为研究人员提供了深入的见解,并促进了未来在假图像检测和定位领域的突破。

ForensicHub is a unified benchmark and codebase designed to address the problem of fake image detection and localization across all domains. It covers four research areas: deepfake detection, image manipulation detection and localization, AI-generated image detection, and document image manipulation localization. The benchmark includes 23 datasets, 42 baseline models, 6 backbone networks, and 11 image-level and pixel-level evaluation metrics. Adopting a modular and configuration-driven architecture, ForensicHub provides interchangeable components across datasets, data transformations, models and evaluators, enabling flexible combination of models and data from all domains for training and testing. It offers researchers in-depth insights and facilitates future breakthroughs in the field of fake image detection and localization.
提供机构:
四川大学, 蚂蚁集团, MBZUAI, 北京大学, 华南理工大学, 澳门大学
创建时间:
2025-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
ForensicHub作为首个面向全领域伪造图像检测与定位的统一基准与代码库,采用模块化架构设计,通过解构法证流程为数据集、变换模块、模型和评估器四大可互换组件。其创新性体现在三方面:一是采用基于适配器的设计无缝整合DeepfakeBench和IMDLBenCo现有基准,通过YAML配置文件实现无代码工作流构建;二是针对AIGC和文档篡改两个新兴领域构建全新基准,覆盖23个数据集和8种生成模型变体;三是建立图像法证融合协议(IFF-Protocol)评估机制,支持跨领域模型的统一训练与测试。该架构通过标准化接口实现42个基线模型与6种骨干网络的自由组合,完成16类跨领域评估实验。
特点
ForensicHub的核心特征体现为三大突破:领域兼容性方面,首创性整合深度伪造检测、自然图像篡改定位、AI生成图像识别和文档篡改定位四大任务,覆盖23个数据集共280万样本;技术集成度方面,实现10个基线模型(含3个重新实现模型)和6种骨干网络的系统整合,提供11种GPU加速的像素级与图像级评估指标;评估创新性方面,提出基于生成模型差异化的AIGC泛化测试协议和文档篡改跨数据集验证协议。特别值得注意的是,其适配器架构可兼容不同任务的输出格式差异,如Deepfake的图像级分类与IMDL的像素级掩模输出,通过最大池化等操作实现评估标准化。
使用方法
使用ForensicHub需遵循三层工作流程:基础层通过YAML配置文件定义数据加载路径(如DiffusionForensics的ImageNet子集)、模型架构(如ConvNeXt骨干)和评估指标(如频域AUC);进阶层利用代码生成器扩展自定义模块,例如新增Stable Diffusion 3.0生成图像的检测器;创新层可开展跨领域实验,如将文档篡改定位模型CAFTB迁移至自然图像篡改检测。评估阶段建议采用IFF-Protocol的多领域混合训练模式,每个epoch从FaceForensics++、CASIAv2等四领域均衡采样。对于学术研究,重点推荐AIGC领域的跨生成器测试(如Midjourney→Wukong)和文档领域的OSTF到RealTextManipulation的跨数据集验证,这些协议能有效揭示模型泛化能力。
背景与挑战
背景概述
ForensicHub是由四川大学、蚂蚁集团、MBZUAI、北京大学、华南理工大学和澳门大学的研究团队于2025年提出的首个面向全领域伪造图像检测与定位的统一基准与代码库。该数据集旨在解决当前伪造图像检测领域存在的四大领域(Deepfake检测、图像篡改检测与定位、AI生成图像检测和文档图像篡改定位)各自为政的问题。通过模块化架构设计,ForensicHub整合了23个数据集、42个基线模型和11种评估指标,支持跨领域的模型训练与测试。该数据集的建立标志着伪造图像检测领域从分散研究向系统化整合的重要转变,为开发通用型伪造检测算法提供了标准化平台。
当前挑战
ForensicHub面临的核心挑战体现在两个维度:领域问题层面,需解决四大伪造检测子领域在数据分布(如Deepfake的面部特征与文档图像的文本特征)、篡改类型(生成式伪造vs局部篡改)和评估标准(图像级分类vs像素级定位)上的异构性问题;构建过程层面,需克服现有基准兼容性差(如DeepfakeBench与IMDLBenCo的预处理流程冲突)、部分领域基准缺失(如AIGC和Doc领域缺乏统一评估协议)以及模型复现困难(如3个基线模型需从零实现)等难题。这些挑战通过模块化架构设计、适配器集成和新基准建立等创新方案得到系统性解决。
常用场景
经典使用场景
ForensicHub作为一个统一的基准测试平台和代码库,广泛应用于多领域伪造图像检测与定位研究。该数据集整合了Deepfake、图像篡改检测(IMDL)、AI生成图像检测(AIGC)和文档图像篡改定位(Doc)四大任务,为跨领域模型评估提供了标准化环境。在计算机视觉与数字取证领域,研究者通过其模块化架构快速构建包含23个数据集、42个基线模型和11种评估指标的实验流程,尤其适用于验证模型在异构数据分布下的泛化能力。
实际应用
在实际应用中,ForensicHub支撑了社交媒体内容审核、法律取证和金融票据验证等关键场景。例如,金融机构利用其文档篡改定位模型检测伪造合同中的文本修改痕迹;内容平台集成AIGC检测模块识别AI生成的虚假信息。通过适配器机制,现有系统可无缝接入DeepfakeBench等专业检测工具,在保持原有工作流的同时扩展多模态检测能力。实验表明,基于该基准优化的Swin Transformer等骨干网络在跨领域检测中AUC提升最高达8.2%。
衍生相关工作
该数据集催生了多项跨领域创新研究:Mesorch通过融合微观-宏观线索改进了文档与自然图像篡改定位的统一架构;UnivFD利用CLIP特征实现了AIGC与Deepfake检测的联合优化;PSCC-Net的渐进式空间建模方法被迁移至文档检测领域,在DocTamper数据集上F1分数提升12.7%。这些工作均基于ForensicHub的交叉评估协议验证了方法的通用性,形成了从专用模型到通用检测框架的技术演进路线。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作