So-Fake-Set

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/saberzl/So-Fake-Set

下载链接

链接失效反馈

官方服务：

资源简介：

So-Fake-Set是一个用于社交媒体图像伪造检测的大规模、多样化的数据集。它包含输入图像（包括真实图像、全合成图像和篡改图像）、二值掩模（突出显示篡改图像中的操作区域）、分类标签、生成器信息（对于真实图像此字段为None）、原始文件名和数据集分割（训练集和验证集）。

创建时间：

2025-10-27

原始信息汇总

So-Fake-Set 数据集概述

数据集基本信息

数据集名称: So-Fake-Set
项目主页: https://hzlsaber.github.io/projects/So-Fake/
代码仓库: https://github.com/hzlsaber/So-Fake
联系人: Zhenglin Huang (zhenglin@liverpool.ac.uk)

数据集简介

So-Fake-Set是一个大规模、多样化的社交媒体图像伪造检测数据集。

数据集结构

数据特征

image (图像类型): 输入图像，包括真实图像、全合成图像和篡改图像
mask (图像类型): 二进制掩码，突出显示篡改图像中的 manipulated 区域
label (字符串类型): 分类类别
generator (字符串类型): 生成器/源模型，真实图像此字段为None
filename (字符串类型): 图像的原始文件名
split (字符串类型): 训练集和验证集

数据划分

训练集: 1,990,070个样本，1,171,356,577,479字节
验证集: 235,670个样本，115,612,108,632字节

存储信息

下载大小: 1,281,505,074,183字节
数据集大小: 1,286,968,686,111字节

许可信息

本作品采用知识共享署名4.0国际许可协议。

引用信息

如需使用本数据集，请引用以下论文：

@misc{huang2025sofakebenchmarkingexplainingsocial, title={So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection}, author={Zhenglin Huang and Tianxiao Li and Xiangtai Li and Haiquan Wen and Yiwei He and Jiangning Zhang and Hao Fei and Xi Yang and Xiaowei Huang and Bei Peng and Guangliang Cheng}, year={2025}, eprint={2505.18660}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2505.18660}, }

搜集汇总

数据集介绍

构建方式

在社交媒体图像伪造检测领域，So-Fake-Set的构建采用了系统化的数据采集与标注流程。该数据集整合了真实图像、全合成图像以及篡改图像三大类别，通过先进的生成模型和技术手段创建伪造样本，并为篡改图像提供了精确的二进制掩码以标识 manipulated 区域。数据来源涵盖了多种生成器模型，确保了数据的多样性和代表性，最终形成了包含近200万训练样本和23万验证样本的大规模集合。

特点

So-Fake-Set以其大规模和高度多样性著称，涵盖了社交媒体中常见的图像伪造类型。数据集不仅包含丰富的图像样本，还提供了详细的元数据，如分类标签、生成器来源和文件名信息，便于深入分析伪造模式。其独特的二进制掩码特征为篡改区域定位提供了精确支持，增强了数据在解释性检测任务中的实用性，整体结构设计科学，支持多维度研究需求。

使用方法

该数据集适用于训练和验证图像伪造检测模型，用户可通过加载指定的数据分割（训练集和验证集）进行模型开发。每个样本包含图像、掩码、标签等关键字段，支持端到端的分类或分割任务。在实际应用中，研究者可利用提供的特征进行多任务学习，如结合掩码信息提升模型的可解释性，或分析不同生成器的影响，从而推动社交媒体图像安全领域的进步。

背景与挑战

背景概述

随着数字图像处理技术的飞速发展，社交媒体平台上的图像伪造现象日益猖獗，对信息可信度与公共安全构成严峻威胁。2025年，由利物浦大学Zhenglin Huang领衔的研究团队发布了So-Fake-Set数据集，旨在构建大规模、多样化的社交媒体图像伪造检测基准。该数据集聚焦于真实图像、全合成图像及篡改图像的三元分类问题，通过系统整合多源生成模型与精细标注机制，为数字取证与多媒体安全领域提供了关键研究基础设施，显著推动了伪造内容溯源与解释性分析的技术演进。

当前挑战

社交媒体图像伪造检测面临多重挑战：在领域层面，生成模型的迭代升级导致伪造痕迹日益隐蔽，需解决跨模型泛化性与微小篡改区域定位的精准性问题；在数据构建过程中，如何平衡真实性与合成样本的多样性、确保篡改区域掩码标注的像素级一致性，以及处理海量数据存储与分布式计算的工程瓶颈，成为数据集可靠性与实用性的核心制约因素。

常用场景

经典使用场景

在数字媒体取证领域，So-Fake-Set数据集通过提供包含真实图像、全合成图像及篡改图像的多样化样本，成为评估图像伪造检测算法的基准平台。其标注的篡改区域掩码与生成器来源信息，使研究者能够系统分析不同伪造技术的视觉特征，为模型训练与验证提供标准化数据支持。

实际应用

面向社交媒体内容审核与数字证据鉴定等实际需求，该数据集训练的检测模型可部署于平台内容过滤系统，自动识别深度伪造与区域篡改图像。在新闻真实性验证、司法电子证据分析等场景中，此类技术能有效遏制虚假信息的传播，维护数字空间的信息可信度。

衍生相关工作

基于该数据集衍生的研究已推动多项经典工作的进展，包括融合多模态特征的伪造检测框架、针对生成器溯源的跨模型泛化研究，以及结合注意力机制的可解释性分析模型。这些成果在CVPR、ICCV等顶级会议中形成了专门针对社交媒体伪造检测的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集