ComplexDataLab/OpenFake
收藏Hugging Face2026-05-07 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/ComplexDataLab/OpenFake
下载链接
链接失效反馈官方服务:
资源简介:
OpenFake是一个旨在评估深度伪造检测和误导性信息缓解在政治相关媒体背景下效果的数据集。它包括根据具有政治相关性的提示生成的高分辨率真实和合成图像,其中包括公众人物的面孔、事件(如灾难、抗议)以及带有文本叠加的多模态模因风格图像。每个图像都包括结构化的元数据,包括其提示、源模型(对于合成图像)和由人工标注或管道分配的标签。
OpenFake is a dataset designed for evaluating deepfake detection and misinformation mitigation in the context of politically relevant media. It includes high-resolution real and synthetic images generated from prompts with political relevance, including faces of public figures, events (e.g., disasters, protests), and multimodal meme-style images with text overlays. Each image includes structured metadata with its prompt, source model (for synthetic), and human-annotated or pipeline-assigned labels.
提供机构:
ComplexDataLab
搜集汇总
数据集介绍

构建方式
OpenFake数据集由加拿大麦吉尔大学与Mila研究所联合构建,旨在填补面向高政治与社会敏感性内容的深度伪造检测基准的空白。其构建策略别具匠心:一方面,从LAION、Pexels、DOCCI及ImageNet等多源数据库中精心筛选真实图像,并利用Qwen2.5-VL模型对图像进行语义过滤与详细描述,确保内容聚焦于公众人物面孔、新闻事件及多模态模因图像;另一方面,通过共享提示词库驱动前沿专有生成器(如GPT Image系列、Midjourney)、开源扩散模型(Stable Diffusion与Flux系列)以及社区微调版本(LoRA等)生成合成图像,并纳入视频生成模型的帧输出,形成覆盖广泛生成范式的合成样本集。此外,数据集还单独搜集了Reddit平台上的自然传播内容,构建了野外测试集,用于评估检测器在实际应用场景中的表现。
使用方法
借助Hugging Face的datasets库,用户可以便捷地加载OpenFake数据集。通过load_dataset函数指定'core'或'reddit'配置,即可分别获得用于训练与OOD评估的标准测试集,以及用于野外泛化性能测试的Reddit子集。每个样本均包含图像、标签、生成模型、提示词、模型类型与发布日期等结构化字段,适用于二分类任务、跨生成器泛化研究以及图像压缩与内容类型鲁棒性分析。对于希望训练更鲁棒检测器的研究者,还可利用数据集提供的附加提示词库生成更多样本,或通过OpenFake Arena提交对抗性样本,进一步推动检测技术的发展。
背景与挑战
背景概述
OpenFake数据集由加拿大麦吉尔大学和Mila研究所的研究团队于2025年创建,核心研究人员包括Victor Livernoche、Reihaneh Rabbany等人。该数据集专注于人工智能生成图像检测领域,特别是针对具有政治和社会影响力的高误传风险内容。其核心研究问题是构建一个覆盖前沿商业模型、开源扩散模型及社区微调模型生成的合成图像检测基准。通过集成来自LAION、Pexels等多元真实图像源,以及包含具体提示词、生成模型和时间戳的结构化元数据,OpenFake为跨生成器泛化研究和现实世界传播内容的检测评估提供了标准化平台,显著推动了深度伪造检测领域的实证研究。
当前挑战
OpenFake致力于解决的核心领域挑战是人工智能生成图像的可靠检测,尤其是在生成技术快速迭代和社区微调模型泛滥的背景下,检测器面临对未见生成器泛化能力不足的难题。数据集构建过程中遇到的挑战包括:确保真实图像与合成图像在内容类型和压缩特征上的分布差异,通过设计核心测试集中真实图像源和生成器同时隔离的OOD机制以严格评估泛化性能;以及从Reddit等平台采集自然传播的合成媒体时,面临标签噪声和平台特有压缩伪影的干扰,需通过子论坛上下文关联和元数据过滤来保障数据质量。
常用场景
经典使用场景
OpenFake是面向合成图像检测领域的标杆性数据集,聚焦于政治与社会议题中高风险的错误信息场景。其经典使用方法在于构建并评估二分类模型,用于区分真实照片与由前沿闭源生成器、开源扩散模型及社区微调模型产出的合成图像。数据集精心设计了核心基准配置,包含独立的训练、验证与测试划分,其中测试集专门选用未见过的生成器模型与不同来源的真实图像,构成严格的域外泛化评估设置。此外,Reddit在线测试配置允许研究者直接在自然流通的社交平台内容上衡量检测器的迁移性能,为实验室模型走向真实部署提供了不可或缺的验证环节。
解决学术问题
该数据集解决了多项亟待突破的学术研究难题。首先,它填补了现有深度伪造检测基准中缺乏高质量政治敏感内容的空白,使得检测研究能够直面错误信息传播的核心领域。其次,通过引入大量前沿闭源生成器与社区微调模型,OpenFake有效挑战了传统检测方法在面对未见生成器时的泛化能力瓶颈。其三,数据集采用双维度域外测试设计,即同时改变生成器类型与真实图像分布,推动学界探索更为严苛且贴近实战的泛化评估范式。这些设计不仅提升了对新型合成攻击的防御能力评估标准,也为鲁棒检测算法的理论创新提供了坚实的数据基础与实验平台。
实际应用
在实际应用中,OpenFake为社交媒体平台、新闻机构及公共安全部门提供了强大的工具支撑。平台运营商可利用基于该数据集训练的检测模型,自动化识别并标记由AI生成的虚假新闻配图、深度伪造的人物肖像及误导性事件照片,从而有效遏制错误信息的病毒式传播。在选举监察领域,该数据集可辅助分析团队快速甄别针对政治人物的合成影像,维护民主过程的真实性。此外,开源社区与安全企业能够借助OpenFake Arena的对抗性提交机制,持续迭代检测器以应对不断演化的生成器威胁,形成动态防御闭环,显著提升了内容审核系统的实战能力与可信度。
数据集最近研究
最新研究方向
当前OpenFake数据集的前沿研究聚焦于构建面向真实世界场景的深度伪造图像检测基准,尤其针对政治与社会敏感信息中的高误导风险内容。该数据集通过系统收录前沿闭源生成模型(如GPT Image 2.0、Imagen 4)、开源扩散模型(如Flux.2、HiDream系列)以及来自Civitai的社区微调与LoRA变体,并包含源自Reddit的自然流通伪造媒体测试集,实现了对生成器泛化能力与平台压缩伪影鲁棒性的双重评估。其严格设计的留出式分布外(OOD)测试方案,同时引入未见生成器与未见真实图像分布,为衡量检测模型在持续演化的生成技术环境下的迁移性能提供了全新标杆,在虚假信息治理与AI安全领域具有深远意义。
以上内容由遇见数据集搜集并总结生成



