TrueFake

github2025-04-30 更新2025-05-12 收录

下载链接：

https://github.com/MMLab-unitn/TrueFake-IJCNN25

下载链接

链接失效反馈

官方服务：

资源简介：

AI生成的合成媒体在现实世界场景中越来越多地被使用，通常用于通过社交媒体平台传播错误信息和宣传，其中压缩和其他处理可能会降低伪造检测线索。目前，许多取证工具未能考虑到这些现实挑战。在这项工作中，我们引入了TrueFake，一个包含60万张图像的大规模基准数据集，包括顶级生成技术和通过三个不同社交网络的分享。该数据集允许在非常现实和具有挑战性的条件下对最先进的伪造图像检测器进行严格评估。通过广泛的实验，我们分析了社交媒体分享如何影响检测性能，并确定了当前最有效的检测和训练策略。我们的发现强调了在反映现实世界使用条件下评估取证模型的必要性。

AI-generated synthetic media is increasingly being used in real-world scenarios, often for spreading misinformation and propaganda via social media platforms, where compression and other processing may degrade forgery detection cues. Currently, many forensic tools fail to account for these real-world challenges. In this work, we introduce TrueFake, a large-scale benchmark dataset containing 600,000 images, covering top-tier generative technologies and shares across three distinct social networks. This dataset enables rigorous evaluation of state-of-the-art forged image detectors under highly realistic and challenging conditions. Through extensive experiments, we analyze how social media sharing impacts detection performance, and identify the most effective detection and training strategies currently available. Our findings underscore the necessity of evaluating forensic models under conditions that reflect real-world usage scenarios.

创建时间：

2025-04-24

原始信息汇总

TrueFake数据集概述

数据集基本信息

名称: TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks
作者: Stefano DellAnna, Andrea Montibeller, Giulia Boato
相关论文: TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks
数据集状态: 即将发布

数据集内容

规模: 600,000张图像
特点:
- 包含顶级生成技术生成的图像
- 包含通过三种不同社交网络分享的图像
- 模拟真实世界场景中的挑战性条件

数据集用途

用于在高度现实和挑战性条件下评估最先进的假图像检测器
分析社交媒体分享对检测性能的影响
识别当前最有效的检测和训练策略

提示信息

提示文件位置: ./prompts/
- prompts_faces.txt
- prompts_animals.txt
- prompts_landscapes.txt
- prompts_general.txt（来自sezenkarakus/image-description-dataset-v2）
生成脚本: ./prompts/src/

检测器信息

预训练网络: R50-E2P
权重下载: pretrained weights
环境设置: 使用environment.yml创建虚拟环境
运行代码: 位于./detector/目录下

引用信息

bibtex @misc{dellanna2025truefake, title={TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks}, author={Stefano DellAnna and Andrea Montibeller and Giulia Boato}, year={2025}, eprint={2504.20658}, archivePrefix={arXiv}, primaryClass={cs.MM}, url={https://arxiv.org/abs/2504.20658}, }

搜集汇总

数据集介绍

构建方式

在数字媒体取证领域，TrueFake数据集通过整合尖端生成技术和真实社交媒体传播路径，构建了一个包含60万张图像的大规模基准数据集。研究团队采用多模态生成方法，涵盖人脸、动物和景观等多种主题，并通过三个主流社交平台进行实际传播，以模拟真实世界中的图像退化过程。数据集构建过程中特别注重保留社交媒体特有的压缩痕迹和处理伪影，为数字取证研究提供了高度仿真的实验环境。

使用方法

使用该数据集时，研究者可通过提供的R50-E2P预训练网络进行基准测试，该网络已在非共享数据子集上进行过初步训练。为获得最佳效果，建议用户按照项目提供的环境配置指南建立虚拟环境，使用自动化启动脚本进行批量训练和测试。数据集支持模块化调用方式，研究者可根据需要单独运行训练或测试脚本，并通过指定数据根目录和分割文件来定制实验流程。

背景与挑战

背景概述

TrueFake数据集由Stefano Dell'Anna、Andrea Montibeller和Giulia Boato等研究人员于2025年提出，旨在应对AI生成合成媒体在真实场景中日益泛滥的挑战。该数据集包含60万张图像，涵盖了顶尖生成技术并通过三种不同社交网络分享，为评估伪造图像检测器在极端真实条件下的性能提供了重要基准。其核心研究问题聚焦于社交网络传播对伪造图像检测线索的退化效应，弥补了现有取证工具在野外环境下的评估空白。这一数据集的建立推动了多媒体取证领域向更贴近实际应用场景的研究范式转变。

当前挑战

TrueFake数据集面临双重技术挑战：在领域问题层面，社交网络特有的压缩算法和图像处理会显著弱化生成图像的伪影特征，使得传统基于实验室数据的检测模型性能急剧下降；在构建过程中，需精确模拟图像在社交平台传播时的多级退化链，包括不同平台特有的重压缩参数、分辨率调整策略和水印添加机制。此外，平衡生成图像的多样性与其社会传播代表性，以及处理大规模跨平台数据采集的伦理合规问题，均为该数据集构建的关键难点。

常用场景

经典使用场景

在数字媒体取证领域，TrueFake数据集为研究人员提供了一个包含60万张图像的大规模基准测试资源，涵盖了顶尖生成技术及经过三种社交网络传播的图像。该数据集特别适用于评估在真实且具有挑战性的环境下，现有伪造图像检测器的性能表现。通过模拟社交网络传播过程中的压缩和处理效应，TrueFake为开发鲁棒的伪造检测算法提供了重要实验平台。

解决学术问题

TrueFake数据集有效解决了当前伪造图像检测研究中面临的现实挑战，即算法在社交网络传播环境下的性能退化问题。该数据集通过整合多种生成技术和真实传播路径，为学术界提供了系统评估模型鲁棒性的标准。其意义在于推动检测方法从实验室环境向实际应用场景的跨越，为应对日益复杂的AI生成虚假信息威胁奠定研究基础。

实际应用

该数据集的实际价值体现在社交媒体内容审核系统的开发中。平台运营方可利用TrueFake训练更适应网络传播特性的检测模型，提前拦截深度伪造的政治谣言或金融诈骗内容。安全机构也能基于该数据集开发新型取证工具，追踪虚假图像在社交网络中的传播路径与变异规律，为网络空间治理提供技术支撑。

数据集最近研究