OPENFAKE

Name: OPENFAKE
Creator: 麦吉尔大学
Published: 2025-09-11 22:34:22
License: 暂无描述

arXiv2025-09-11 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/ComplexDataLab/OpenFake

下载链接

链接失效反馈

官方服务：

资源简介：

OPENFAKE 是一个包含三百万张真实图像和九十六万三千张高质量合成图像的数据集，旨在支持对现代生成模型进行深度伪造检测。数据集涵盖了从专有和开源模型生成的图像，并通过众包平台不断更新，以保持与最新的生成技术同步。该数据集特别针对政治内容，以帮助研究者和实践者应对深度伪造在政治敏感环境中的挑战。

OPENFAKE is a dataset comprising 3 million real images and 963,000 high-quality synthetic images, designed to support deepfake detection research on modern generative models. The dataset covers images generated by both proprietary and open-source models, and is continuously updated via crowdsourcing platforms to keep pace with the latest generative technologies. Specifically focusing on political content, this dataset aims to help researchers and practitioners address the challenges posed by deepfakes in politically sensitive environments.

提供机构：

麦吉尔大学

创建时间：

2025-09-11

原始信息汇总

OpenFake 数据集概述

数据集详情

数据集描述

OpenFake 是一个专为评估深度伪造检测和错误信息缓解而设计的数据集，专注于政治相关媒体内容。它包含高分辨率的真实和合成图像，这些图像由具有政治相关性的提示生成，涵盖公众人物面孔、事件（如灾难、抗议）以及带有文本叠加的多模态模因风格图像。每张图像均附带结构化元数据，包括提示、来源模型（针对合成图像）以及人工标注或流程分配的标签。

作者：Victor Livernoche；Akshatha Arodi；Andreea Musulan；Zachary Yang；Adam Salvail；Gaétan Marceau Caron；Jean-François Godbout；Reihaneh Rabbany
策划者：Victor Livernoche；Akshatha Arodi；Jie Zang
资助方：CIFAR AI Chairs Program；Centre for the Study of Democratic Citizenship (CSDC)；IVADO；Canada First Research Excellence Fund；Mila（资金支持和计算资源）
语言（提示）：英语
许可证：CC-BY-SA-4.0（注意：由于“非竞争”条款，使用专有生成器产生的子集仅限非商业用途；详见论文）

数据集来源

代码库：https://huggingface.co/datasets/ComplexDataLab/OpenFake
竞技场（众包对抗平台）：https://huggingface.co/spaces/CDL-AMLRT/OpenFakeArena

用途

直接用途

基准测试二分类器以检测真实与合成图像
评估跨模型和内容类型（面孔、事件、模因）的鲁棒性
通过社区提交（OpenFake Arena）训练对抗性鲁棒检测器

超范围用途

未经同意直接使用数据集训练生成模型
任何违反平台规则或隐私的个人图像使用

数据集结构

image：图像（真实或合成）
label：real 或 fake
model：生成合成图像的模型
prompt：用于生成合成图像的提示或真实图像的标题

训练/测试分割按标签平衡，并策划以确保视觉和主题多样性。分割间无图像重叠。

未使用的元数据：unused_metadata.csv 包含未包含在训练/测试分割中的图像的 URL 和提示。

覆盖的模型

合成图像由多种先进生成器生成，包括：

Stable Diffusion 1.5、2.1、XL、3.5
Flux 1.0-dev、1.1-Pro、1.0-Schnell
Midjourney v6、v7
DALL·E 3、Imagen 3、Imagen 4
GPT Image 1、Ideogram 3.0、Grok-2、HiDream-I1、Recraft v3、Chroma
外加 10 个社区 LoRA/微调变体的 SD 1.5/XL 和 Flux-dev

所有图像均以约 1 MP 分辨率生成，具有反映常见社交媒体格式的多种宽高比。

数据集创建

策划理由

旨在填补深度伪造检测数据集的空白，涵盖高质量、政治敏感的合成图像，并超越仅面部基准，包括事件和混合图像文本模因。该数据集将约 300 万张政治主题真实图像（使用 Qwen2.5-VL 从 LAION-400M 过滤）与约 96.3 万张合成对应图像配对，并辅以 OpenFake Arena 进行持续硬负样本生成。

源数据

真实图像：从 LAION-400M 中筛选，并使用 Qwen2.5-VL 过滤以保留面孔和政治显著或新闻价值事件。生成详细标题以驱动文本到图像生成和竞技场提示。
合成图像：使用上述模型列表从共享提示库生成。开源模型遵循文档化的生成设置以确保可重现性。

源数据生产者

真实图像：新闻媒体、政治用户和公共社交媒体帖子
合成图像：由研究人员和社区贡献者从提示生成；竞技场提交通过 CLIP 进行提示相关性门控，并记录元数据

个人和敏感信息

源数据经过过滤以减少个人或敏感内容；详见论文的道德和许可说明。

偏见、风险和局限性

由于源数据分布，可能存在西方政治事件的过度代表。合成示例继承生成器偏见。并非所有标签都经过详尽的人工验证。对抗性使用是一种风险，通过许可和数据集专注于检测来缓解。

建议

解释图像中的政治叙事时需谨慎。未经额外审查，不得用于内容生成或面部身份研究。

引用

BibTeX： bibtex @misc{livernoche2025openfakeopendatasetplatform, title={OpenFake: An Open Dataset and Platform Toward Large-Scale Deepfake Detection}, author={Victor Livernoche and Akshatha Arodi and Andreea Musulan and Zachary Yang and Adam Salvail and Gaétan Marceau Caron and Jean-François Godbout and Reihaneh Rabbany}, year={2025}, eprint={2509.09495}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.09495}, }

APA： Livernoche, V., Arodi, A., Musulan, A., Yang, Z., Salvail, A., Marceau Caron, G., Godbout, J.-F., & Rabbany, R. (2025). OpenFake: An open dataset and platform toward large-scale deepfake detection. arXiv. https://arxiv.org/abs/2509.09495

数据集卡片作者

Victor Livernoche

数据集卡片联系人

victor.livernoche@mail.mcgill.ca

搜集汇总

数据集介绍

构建方式

OPENFAKE数据集的构建始于对社交媒体平台的政治相关内容爬取，特别聚焦于选举相关标签下的图像。通过视觉语言模型对LAION-400M数据集进行过滤，筛选出包含真实人脸或政治事件的图像，并生成描述性提示词。利用开源与专有生成模型，基于这些提示词生成高质量合成图像，最终形成包含300万真实图像与96.3万合成图像的配对数据集。

特点

该数据集以政治背景下的深度伪造检测为核心，涵盖多样化图像类型，包括人物肖像、新闻事件及灾难场景等。其合成图像源自18种前沿生成模型，兼具高视觉保真度与真实世界压缩痕迹。数据集通过HuggingFace平台以流式Parquet格式发布，支持高效访问与扩展，并附带完整提示词库以实现可复现性。

使用方法

研究者可通过HuggingFace Hub直接加载数据集，用于训练和评估深度伪造检测模型。数据集提供标准训练测试划分，支持跨模型泛化能力测试。此外，OPENFAKE ARENA平台允许用户通过对抗性图像提交动态扩展数据集，确保检测方法能持续适应新兴生成技术。

背景与挑战

背景概述

OPENFAKE数据集由麦吉尔大学与Mila人工智能研究所联合团队于2025年创建，旨在应对生成式AI技术引发的深度伪造媒体泛滥问题。该数据集聚焦政治敏感场景下的虚假信息传播，包含300万真实图像与96.3万合成图像的配对数据，覆盖开源与专有生成模型。其创新性在于通过社交媒体内容分析构建真实世界误导风险样本，并引入人类感知研究验证合成图像的欺骗性，为深度伪造检测领域提供了首个以政治语境为核心的大规模基准。

当前挑战

该数据集致力于解决生成模型时代虚假图像检测的泛化性难题，具体挑战包括：一是需应对扩散模型与Transformer架构生成的高保真图像，其视觉特征与真实图像近乎不可区分；二是构建过程中需克服传统数据集依赖单一人脸样本、生成技术过时等局限，通过多平台社交媒体爬取与对抗性众包平台实现动态数据迭代；三是需平衡专有模型访问权限与数据可复现性，通过提示词开源策略确保数据扩展性。

常用场景

经典使用场景

在深度伪造检测研究中，OPENFAKE数据集被广泛用于评估和比较不同检测模型的性能。该数据集包含大量高质量的真实图像与合成图像对，覆盖了从开源到专有模型的多种生成技术，为研究者提供了一个全面且具有挑战性的测试平台。通过使用OPENFAKE，研究人员能够系统地分析模型在识别现代生成技术产生的伪造内容时的表现，从而推动检测算法的进一步发展。

解决学术问题

OPENFAKE数据集解决了深度伪造检测领域中的多个关键学术问题，包括生成模型快速演进导致的检测方法过时、单一类型图像（如人脸）局限性以及真实世界场景下的泛化能力不足。该数据集通过提供多样化且高质量的合成图像，帮助研究者开发出更具鲁棒性的检测模型，有效应对新兴生成技术带来的挑战，并为检测算法的公平比较提供了标准化基准。

衍生相关工作

OPENFAKE数据集衍生了一系列重要的相关研究工作，包括基于CLIP的检测方法、频率域特征分析以及多模态融合技术。这些工作利用数据集的丰富内容和高质量标注，推动了检测模型在语义层面和对抗性环境下的性能提升。此外，该数据集还促进了社区驱动的对抗平台OPENFAKE ARENA的发展，鼓励研究者持续生成难以检测的合成图像，进一步推动了检测技术的动态演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集