OpenFake

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/CDL-AMLRT/OpenFake

下载链接

链接失效反馈

官方服务：

资源简介：

OpenFake是一个旨在评估深度伪造检测和误导性信息缓解能力的数据库，特别是在政治相关媒体内容的背景下。它包括从具有政治相关性的提示中生成的高分辨率真实和合成图像，包括公众人物的面孔、事件（如灾难、抗议）以及带有文本覆盖的模因风格的多模态图像。每张图像都包括结构化的元数据，包含其提示、源模型（对于合成的）以及由人类注释或管道分配的标签。

OpenFake is a database designed to evaluate deepfake detection and misinformation mitigation capabilities, particularly in the context of politically relevant media content. It includes high-resolution real and synthetic images generated from politically relevant prompts, covering faces of public figures, events such as disasters and protests, as well as meme-style multimodal images with text overlays. Each image is accompanied by structured metadata that contains its prompt, source model (for synthetic images), and labels assigned by human annotators or processing pipelines.

创建时间：

2025-05-13

原始信息汇总

OpenFake 数据集概述

数据集详情

数据集描述

OpenFake 是一个用于评估政治相关媒体中深度伪造检测和错误信息缓解的数据集。包含高分辨率的真实和合成图像，这些图像由具有政治相关性的提示生成，涵盖公众人物面孔、事件（如灾难、抗议）以及带有文本覆盖的多模态模因风格图像。每张图像都包含结构化元数据，包括提示、来源模型（针对合成图像）和人工标注或流程分配的标签。

策划者: Victor Livernoche 和 Akshatha Arodi
资助者: Mila 和 CSDC
语言（提示）: 英语
许可证: CC-BY-NC-SA-4.0

数据集结构

数据字段

jpg: 图像（真实或合成）
json: 元数据，包含 file_name、label（真实/伪造）、model（针对合成图像）和 prompt
__key__: 唯一标识符
__url__: 原始来源 URL（如适用）

数据划分

训练集: 635,138 个样本，396,242,049,275 字节
测试集: 30,000 个样本，19,070,919,371 字节

数据集创建

数据来源

真实图像: 来自 Laion-400m，通过 Qwen2.5-VL 提示过滤
合成图像: 使用开源模型（Flux.1-dev、Stable Diffusion 3.5）和专有模型（GPT Image 1、Ideogram 3.0、Flux1.1-pro）生成

数据生产者

真实图像: 新闻媒体、政治用户、社交媒体公开帖子
合成图像: 研究人员和社区贡献者使用模型提示生成

使用场景

直接用途

真实与合成图像检测的二元分类模型基准测试
图像领域检测器的鲁棒性评估
通过社区提交训练对抗检测模型

超出范围用途

未经许可直接使用该数据集训练生成模型
违反平台规则或个人隐私权的个人图像使用

偏见、风险和限制

可能过度代表西方政治事件
合成图像受模型偏见限制
并非所有标签都经过详尽的人工验证
对抗性使用是潜在风险，但通过明确许可和检测任务重点得以缓解

建议

解释图像中的政治叙事时需谨慎
未经额外明确审查，不得用于内容生成或面部身份研究

搜集汇总

数据集介绍

构建方式

OpenFake数据集的构建旨在填补深度伪造检测领域的空白，特别关注政治敏感内容的合成图像。该数据集通过精选高分辨率的真实与合成图像，结合政治相关提示词生成多样化内容，包括公众人物面孔、事件场景及多模态模因风格图像。真实图像来源于Laion-400m数据库，经Qwen2.5-VL筛选；合成图像则采用开源模型（如Stable Diffusion 3.5）及合规专有模型生成，确保数据来源的多样性与合法性。

使用方法

该数据集主要用于深度伪造检测模型的基准测试与鲁棒性评估，支持二分类任务及对抗性检测研究。使用者可通过加载图像及其关联元数据，构建端到端的检测流程。需注意，数据集受CC-BY-NC-SA-4.0许可限制，禁止直接用于生成模型训练或违反隐私权的内容创作。建议结合政治语境谨慎解析图像内容，避免潜在偏见影响。

背景与挑战

背景概述

OpenFake数据集由Victor Livernoche和Akshatha Arodi联合开发，并得到Mila和CSDC的支持，旨在应对深度伪造技术带来的政治相关媒体检测挑战。该数据集发布于2020年代初期，专注于高分辨率的真实与合成图像，涵盖公共人物面孔、政治事件及多模态模因风格图像。其核心研究问题在于提升深度伪造检测模型的鲁棒性，特别是在政治敏感内容领域的应用。该数据集通过提供丰富的结构化元数据，包括图像来源模型和人工标注标签，填补了现有深度伪造检测数据集的空白，对信息安全与内容审核领域具有重要影响。

当前挑战

OpenFake数据集面临多重挑战。在领域问题方面，深度伪造技术的快速演进导致检测模型需要不断适应新型合成方法，而政治敏感内容的复杂性进一步增加了分类难度。数据集构建过程中，合成图像的采集受限于专有模型的使用条款，可能影响数据多样性；真实图像的筛选需平衡视觉多样性与主题覆盖，同时避免个人隐私信息。此外，数据标签未完全经过人工验证，可能存在标注噪声，且西方政治事件的过度代表可能导致地域偏见。这些因素共同构成了该数据集在研究与实际应用中的主要挑战。

常用场景

经典使用场景

在数字媒体真实性验证领域，OpenFake数据集因其高分辨率的政治相关图像和详尽的元数据标注，成为评估深度伪造检测算法的黄金标准。研究者通过该数据集构建的二元分类模型，能够有效区分真实图像与由Stable Diffusion等先进模型生成的合成图像，特别是在涉及公众人物肖像和政治事件的复杂场景中展现出卓越的判别能力。数据集包含的混合模态图像文本模因，进一步拓展了传统人脸伪造检测的边界。

解决学术问题

该数据集解决了深度伪造检测研究中两个关键瓶颈：一是缺乏包含政治敏感内容的多样化样本，使得现有模型在真实场景中泛化能力不足；二是传统数据集多局限于单一模态的人脸伪造，而OpenFake通过整合多模态模因图像，为研究文本-图像协同伪造提供了全新实验平台。其结构化元数据支持溯源分析，有助于揭示不同生成模型的指纹特征，推动检测技术向细粒度化发展。

实际应用

在社交媒体内容审核系统中，基于OpenFake训练的检测模型可实时识别潜在的政治虚假信息。新闻机构利用该数据集构建的验证工具，能够快速核查热点事件中图像的真实性。国家安全领域则通过分析数据集中不同生成模型的伪造模式，建立针对特定攻击者的威胁画像。教育机构还将其作为数字素养课程的典型案例，帮助学生识别现代信息战中的视觉欺骗手段。

数据集最近研究