TrueFake

Name: TrueFake
Creator: 意大利特伦托大学
Published: 2025-04-29 19:33:52
License: 暂无描述

arXiv2025-04-29 更新2025-05-01 收录

下载链接：

https://github.com/MMLab-unitn/TrueFake-IJCNN25

下载链接

链接失效反馈

官方服务：

资源简介：

TrueFake数据集是一个大规模的基准测试数据集，包含60万张图像，包括顶级的生成技术，并通过三个不同的社交网络进行共享。这个数据集允许在非常真实和具有挑战性的条件下对最先进的假图像检测器进行严格的评估。通过广泛的实验，我们分析了社交网络共享如何影响检测性能，并确定了当前最有效的检测和训练策略。我们的发现强调了在反映实际使用条件的条件下评估取证模型的必要性。

The TrueFake dataset is a large-scale benchmark dataset containing 600,000 images that utilize state-of-the-art generative techniques, and are shared across three distinct social networks. This dataset enables rigorous evaluation of state-of-the-art fake image detectors under highly realistic and challenging conditions. Through extensive experiments, we analyzed how sharing via social networks affects detection performance, and identified the most effective current detection and training strategies. Our findings highlight the necessity of evaluating forensic models under conditions that reflect real-world usage scenarios.

提供机构：

意大利特伦托大学

创建时间：

2025-04-29

原始信息汇总

TrueFake数据集概述

数据集基本信息

名称: TrueFake
描述: 一个包含最新生成技术生成的假图像以及在社交网络上共享的真实世界案例数据集
规模: 600,000张图像
特点:
- 包含顶级生成技术生成的图像
- 包含通过三种不同社交网络共享的图像
- 旨在评估假图像检测器在现实和挑战性条件下的性能

数据集内容

图像类型:
- 生成技术生成的假图像
- 社交网络共享的图像
提示文本:
- 提供用于生成数据集的提示文本
- 包括人脸、动物和风景类别的提示文本
- 部分提示文本来自sezenkarakus/image-description-dataset-v2

数据集用途

主要用途:
- 评估最先进的假图像检测器在现实和挑战性条件下的性能
- 分析社交网络共享对检测性能的影响
- 识别当前最有效的检测和训练策略

引用信息

bibtex @misc{dellanna2025truefake, title={TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks}, author={Stefano DellAnna and Andrea Montibeller and Giulia Boato}, year={2025}, eprint={2504.20658}, archivePrefix={arXiv}, primaryClass={cs.MM}, url={https://arxiv.org/abs/2504.20658}, }

搜集汇总

数据集介绍

构建方式

TrueFake数据集构建采用了多源数据整合与社交网络共享模拟相结合的方法。研究团队从FFHQ和FORLAB数据集中精选了10万张真实图像，涵盖多样化场景和分辨率。同时利用五种前沿扩散模型（如Stable Diffusion系列）生成20万张图像，并采用三代StyleGAN生成12万张人脸图像。最具创新性的是，研究人员通过Facebook、X和Telegram的API接口，将6万张原始图像上传后重新下载，最终获得18万张经社交网络处理的图像样本，完整模拟了虚假内容在真实网络环境中的传播路径。

使用方法

使用TrueFake数据集时，研究者可采用分层验证策略评估检测模型的鲁棒性。建议首先在未经过社交网络处理的原始图像上建立基准性能，随后分别在Facebook、X和Telegram三大平台的压缩图像上进行跨域测试。数据集已按7:1.5:1.5的比例预分割训练集、验证集和测试集，其中社交网络处理过的图像仅出现在测试集中，可有效模拟真实场景中检测模型遇到的域偏移问题。实验设计应特别关注不同生成技术（如DM与GAN）和不同社交平台处理对检测性能的差异化影响。

背景与挑战

背景概述

TrueFake数据集由意大利特伦托大学的Stefano Dell’Anna、Andrea Montibeller和Giulia Boato等研究人员于2025年推出，旨在应对AI生成图像在社交媒体传播中的真实性检测难题。该数据集包含60万张图像，涵盖真实图像、基于生成对抗网络（GAN）和扩散模型（DM）生成的合成图像，以及经过Facebook、X和Telegram等社交网络处理的图像。TrueFake的推出填补了现有数据集中在真实场景下检测合成图像的空白，为多媒体取证领域提供了重要的基准工具。

当前挑战

TrueFake数据集面临的挑战主要体现在两个方面：一是领域问题的挑战，即如何在社交媒体压缩和处理后的图像中准确检测AI生成的虚假内容，现有检测方法在实验室环境下表现良好，但在真实场景中性能显著下降；二是构建过程中的挑战，包括如何收集和生成多样化的图像样本以覆盖不同场景和生成技术，以及如何处理社交媒体平台对图像的不同压缩和调整策略，这些处理会显著影响检测特征的可用性。

常用场景

经典使用场景

TrueFake数据集在多媒体取证领域具有重要价值，其经典使用场景在于评估和优化AI生成图像的检测算法。该数据集包含了60万张图像，涵盖真实图像、GAN生成图像和扩散模型生成图像，并且部分图像经过社交媒体平台的压缩和处理。研究人员可以利用TrueFake数据集在实验室环境和真实社交媒体环境下测试检测模型的性能，从而全面评估算法的鲁棒性和泛化能力。

解决学术问题

TrueFake数据集解决了多媒体取证领域中的多个关键学术问题。首先，它填补了现有数据集中缺乏社交媒体压缩图像的空白，使得研究人员能够评估检测算法在真实场景中的表现。其次，数据集涵盖了多种生成技术（如StyleGAN系列和Stable Diffusion系列），为研究不同生成模型的特征差异提供了丰富素材。此外，TrueFake还帮助研究人员探索社交媒体压缩对检测算法性能的影响，从而推动更鲁棒的检测方法的发展。

实际应用

TrueFake数据集在实际应用中具有广泛潜力。社交媒体平台可以利用该数据集训练和优化其内容审核系统，以更有效地识别和过滤AI生成的虚假图像。政府部门和新闻机构可以基于该数据集开发工具，用于检测和防范虚假信息的传播。此外，安全研究团队可以利用TrueFake来评估新型生成模型可能带来的威胁，并提前制定应对策略。

数据集最近研究