HydraFake-100K
收藏arXiv2025-08-29 更新2025-08-30 收录
下载链接:
https://cCC.CWI
下载链接
链接失效反馈官方服务:
资源简介:
HydraFake-100K数据集是中国科学院自动化研究所、蚂蚁集团、中国科学院深圳先进技术研究院和中国科学院大学人工智能学院联合创建的。该数据集包含10万条数据,旨在模拟现实世界中的挑战,并通过分层泛化测试推进深度伪造检测的评价协议。数据集收集了来自8个公共数据集的真实图像,以及来自经典数据集、高质量公共数据集和自构建深度伪造数据的伪造图像。HydraFake数据集还包含了来自社交网络的1千张深度伪造图像,以模拟真实世界中的挑战。
The HydraFake-100K dataset was jointly created by the Institute of Automation of the Chinese Academy of Sciences, Ant Group, Shenzhen Institute of Advanced Technology of the Chinese Academy of Sciences, and the School of Artificial Intelligence of the University of Chinese Academy of Sciences. Comprising 100,000 data samples, this dataset is designed to simulate real-world challenges and advance the evaluation protocols for deepfake detection via hierarchical generalization testing. It collects real images from 8 public datasets, as well as forged images sourced from classic datasets, high-quality public datasets, and self-constructed deepfake data. Additionally, the HydraFake dataset includes 1,000 deepfake images from social networks to simulate real-world challenges.
提供机构:
中国科学院自动化研究所,蚂蚁集团,中国科学院深圳先进技术研究院,中国科学院大学人工智能学院
创建时间:
2025-08-29
搜集汇总
数据集介绍

构建方式
HydraFake-100K数据集通过系统收集与复现先进深度伪造技术构建而成,涵盖多样化伪造方法和真实场景伪造样本。构建过程采用严格的质量控制,从8个公开数据集中筛选真实图像,并整合经典伪造数据、公开伪造数据及自建高级伪造数据三个来源。通过分层抽样策略,确保训练集包含48K图像且限定三种基本伪造类型,测试集则设计为包含域内、跨模型、跨伪造和跨场景四个层次的系统化评估体系。
特点
该数据集的核心特征体现在其层次化泛化测试框架,全面模拟现实场景中的分布外挑战。具体包含50K真实与50K伪造图像的平衡样本量,覆盖从传统换脸到新兴生成式换脸、面部重光照等10余种伪造技术。其独特价值在于突破传统基准的局限性,通过引入未知模型架构、新兴伪造技术和新颖数据域的三重挑战,为深度伪造检测模型的泛化能力提供细粒度评估维度。数据集分辨率跨度从256×256到1024×1024,兼具低质量社交媒体图像与高清合成图像的双重特性。
使用方法
使用该数据集需遵循其设计的严格协议:训练阶段仅使用限定三种伪造类型的样本,测试阶段则按四个层次展开评估。域内测试评估同源数据的识别能力;跨模型测试检验对未知生成模型的适应性;跨伪造测试挑战新型操纵技术的检测能力;跨场景测试则验证在未知数据域和真实社交媒体环境中的鲁棒性。研究人员可通过该协议系统化诊断模型弱点,特别推荐与多模态大语言模型结合,利用其模式感知推理能力应对复杂伪造场景。评估指标以准确率为主,辅以精确率与召回率分析。
背景与挑战
背景概述
HydraFake-100K数据集由中国科学院自动化研究所与蚂蚁集团等机构于2025年联合推出,旨在解决深度伪造检测领域泛化性评估的局限性。该数据集针对真实场景中复杂多变的伪造内容,系统整合了多样化深度伪造技术与野外采集的伪造样本,涵盖未见模型架构、新兴伪造手法及跨域数据挑战。其创新性分层评估协议推动了深度伪造检测从实验室基准向工业实践的跨越,为开发鲁棒性检测器提供了关键基础设施。
当前挑战
该数据集核心挑战在于解决深度伪造检测中的分布外泛化问题:一是领域问题挑战,需应对未知伪造技术(如属性编辑、面部重光照)和高质量合成图像的检测盲区;二是构建过程挑战,涉及多源数据质量管控(如低分辨率样本过滤)、新兴伪造技术复现(如视觉自回归模型生成数据),以及社交媒体伪造样本的合规采集与标注一致性保障。
常用场景
经典使用场景
在深度伪造检测领域,HydraFake-100K数据集被广泛用于评估模型在分层泛化测试中的性能。该数据集通过模拟真实世界中的多样化伪造技术和野外伪造样本,为研究者提供了一个严格的训练和评估协议,涵盖未见过的模型架构、新兴伪造技术和新颖数据域。
实际应用
在实际应用中,HydraFake-100K被用于开发和测试深度伪造检测系统,特别是在社交媒体和短视频平台中识别高质量伪造内容。其严格的评估协议使得检测器能够应对真实世界中不断演变的伪造技术,提升了对恶意伪造行为的防御能力。
衍生相关工作
基于HydraFake-100K,研究者提出了VERITAS模型,这是一个基于多模态大语言模型的深度伪造检测器,引入了模式感知推理框架。该工作进一步衍生出混合偏好优化和模式感知群体相对策略优化等方法,显著提升了模型在未知伪造和数据域上的泛化性能。
以上内容由遇见数据集搜集并总结生成



