So-Fake-Set

github2025-05-30 更新2025-06-03 收录

下载链接：

https://github.com/hzlsaber/So-Fake

下载链接

链接失效反馈

官方服务：

资源简介：

一个大规模、多样化的数据集，专门为社交媒体图像伪造检测而设计，包含超过200万张高质量图像，使用了35种最先进的生成模型合成的多样生成来源和逼真图像。

A large-scale, diverse dataset specifically designed for social media image forgery detection. It contains over 2 million high-quality images with diverse generation sources and realistic content synthesized by 35 state-of-the-art generative models.

创建时间：

2025-05-23

原始信息汇总

So-Fake 数据集概述

数据集简介

名称: So-Fake
目标: 社交媒体图像伪造检测
核心贡献:
- So-Fake-Set: 大规模多样化数据集，专为社交媒体图像伪造检测设计
- So-Fake-OOD: 具有挑战性的真实世界分布外基准
- So-Fake-R1: 基于强化学习的可解释视觉语言框架

数据集详情

So-Fake-Set:
- 规模: 超过200万张高质量图像
- 来源: 35种最先进的生成模型
- 特点:
  - 多样化生成来源
  - 逼真图像合成
  - 覆盖12种真实社交媒体场景类别
So-Fake-OOD:
- 规模: 10万张图像
- 特点:
  - 来自商业模型的合成图像
  - 明确排除训练分布中的样本
  - 用于评估真实世界性能

数据访问

Hugging Face: https://huggingface.co/datasets/saberzl/So-Fake-OOD
Google Drive: https://drive.google.com/drive/folders/1okP2S6LO-VvH69MDqpeRhYZypfJ0ZHoG?usp=sharing

方法概述

So-Fake-R1:
- 类型: 视觉语言框架
- 特点:
  - 使用强化学习优化
  - 提供可解释的视觉推理
  - 支持伪造检测和精确定位
- 性能:
  - 检测准确率提升1.3%
  - 定位IoU提升4.5%

生成方法

包含完全合成图像(F)和篡改图像(T)
真实数据来源:
- Flickr30k (F30k)
- OpenImages (OI)
- OpenForensics (OF)

视觉案例

提供完整合成图像和篡改图像的视觉示例
展示So-Fake-R1的视觉输出结果

引用

bibtex @misc{huang2025sofakebenchmarkingexplainingsocial, title={So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection}, author={Zhenglin Huang and Tianxiao Li and Xiangtai Li and Haiquan Wen and Yiwei He and Jiangning Zhang and Hao Fei and Xi Yang and Xiaowei Huang and Bei Peng and Guangliang Cheng}, journal={arXiv preprint arXiv:2505.13379}, year={2025} }

搜集汇总

数据集介绍

构建方式

在社交媒体图像伪造检测领域，So-Fake-Set数据集的构建采用了多源合成与真实场景结合的策略。该数据集通过整合35种前沿生成模型，精心合成超过200万张高质量图像，涵盖12类社交媒体常见场景。构建过程中特别注重数据多样性，同时包含完全合成图像和局部篡改图像两种类型，并严格区分训练集与分布外测试集（So-Fake-OOD），后者专门采用商业生成模型创建，以模拟真实场景中的未知伪造技术挑战。数据来源融合了Flickr30k、OpenImages等公开数据集，确保内容覆盖的广泛性。

特点

作为当前最全面的社交媒体伪造图像数据集，So-Fake-Set展现出三大核心特征：其规模优势体现在200万样本量远超同类数据集；技术前沿性表现为涵盖2020-2025年间主流生成技术；场景真实性通过精心设计的12类社交媒介内容得以保证。特别值得注意的是其首创的分布外评测基准So-Fake-OOD，包含10万张采用商业模型生成的测试样本，有效解决了现有方法对未知生成技术泛化能力不足的痛点。数据集还提供像素级篡改定位标注和视觉解释依据，为可解释性检测研究奠定基础。

使用方法

该数据集通过Hugging Face平台和Google Drive双渠道开放访问，支持研究者灵活获取。使用建议遵循训练集（So-Fake-Set）与测试集（So-Fake-OOD）严格分离的原则，以准确评估模型在未知伪造技术上的泛化性能。配套提供的So-Fake-R1框架演示了最佳实践方案，其基于强化学习的视觉语言融合方法可实现端到端的伪造检测、定位与解释生成。研究人员既可将其作为基准测试平台，也可利用丰富的元数据开展生成技术溯源、局部篡改分析等衍生研究。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，合成图像的逼真度已达到以假乱真的程度，这对社交媒体平台的信息真实性和公众信任构成了严峻挑战。由Zhenglin Huang等学者于2025年提出的So-Fake-Set数据集，正是针对这一社会痛点应运而生。该数据集由多所顶尖研究机构联合打造，收录了超过200万张高质量图像，涵盖35种前沿生成模型合成的多样化内容，并创新性地构建了包含10万样本的域外基准测试集So-Fake-OOD。作为目前规模最大、覆盖生成技术最全面的社交媒体图像伪造检测数据集，其通过融合真实社交媒体场景中的12类典型内容，为提升伪造检测模型的泛化能力提供了重要研究基础。

当前挑战

在解决社交媒体图像伪造检测这一核心问题上，So-Fake-Set面临双重挑战：技术层面需应对生成模型快速迭代带来的概念漂移问题，现有检测方法对新型生成技术的泛化能力普遍不足；数据层面则需克服真实社交媒体环境中存在的复杂干扰因素，包括多源生成痕迹的混合叠加及后处理操作导致的特征退化。在数据集构建过程中，研究团队遭遇了生成模型选择代表性不足、真实与伪造样本平衡难度大、跨平台数据采集标准不统一等工程挑战，特别是域外基准集的构建需要精确控制训练集与测试集之间的技术代差，这对数据划分策略提出了极高要求。

常用场景

经典使用场景

在社交媒体图像伪造检测领域，So-Fake-Set数据集因其大规模、多样化的特点成为研究者的首选工具。数据集涵盖了35种最先进的生成模型合成的超过200万张高质量图像，覆盖了12种不同的社交媒体场景，为研究者提供了丰富的实验素材。其经典使用场景包括训练和评估图像伪造检测算法，特别是在跨域泛化能力测试中表现突出。

衍生相关工作

围绕So-Fake-Set数据集已经产生了一系列重要研究工作。最具代表性的是配套提出的So-Fake-R1框架，该视觉语言模型通过强化学习实现了高精度的伪造检测和定位。此外，该数据集还促进了跨模态伪造检测、小样本学习在图像鉴真中的应用等方向的研究，推动了整个社交媒体内容安全领域的发展。

数据集最近研究