SynthScars

github2025-03-21 更新2025-03-22 收录

下载链接：

https://github.com/opendatalab/LEGION

下载链接

链接失效反馈

官方服务：

资源简介：

SynthScars是一个高质量且多样化的数据集，包含12,236张完全合成的图像，并带有专家注释。该数据集具有4种不同的图像内容类型、3类伪影，以及涵盖像素级分割、详细文本解释和伪影类别标签的细粒度注释。

SynthScars is a high-quality and diverse dataset consisting of 12,236 fully synthetic images accompanied by expert annotations. It features four distinct image content types, three artifact categories, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels.

创建时间：

2025-03-18

原始信息汇总

LEGION: Learning to Ground and Explain for Synthetic Image Detection 数据集概述

📌 数据集基本信息

数据集名称: SynthScars
数据量: 12,236张全合成图像
标注类型: 人工专家标注
内容类型: 4种不同图像内容类型
标注粒度:
- 像素级分割
- 详细文本解释
- 伪影类别标签

🏆 数据集特点

高质量多样性: 包含多种内容类型和伪影类别
精细标注:
- 3类伪影标注
- 像素级分割标注
- 详细文本解释

📦 数据集结构

./data └── SynthScars ├── train │ ├── images │ └── annoations │ └── train.json └── test ├── images └── annoations └── test.json

📊 性能表现

伪影定位: 在SynthScars、RichHF-18K和LOKI数据集上评估
解释生成: 在SynthScars和LOKI数据集上评估
深度伪造检测: 在UniversialFakeDetect基准测试上评估

🛠️ 使用方式

作为防御者:
- 伪影定位和解释生成训练
- 深度伪造检测训练
作为控制器:
- 图像再生
- 区域修复

📜 引用格式

bibtex @misc{kang2025legionlearninggroundexplain, title={LEGION: Learning to Ground and Explain for Synthetic Image Detection}, author={Hengrui Kang and Siwei Wen and Zichen Wen and Junyan Ye and Weijia Li and Peilin Feng and Baichuan Zhou and Bin Wang and Dahua Lin and Linfeng Zhang and Conghui He}, year={2025}, eprint={2503.15264}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.15264}, }

🔗 相关资源

论文地址: https://arxiv.org/pdf/2503.15264
项目页面: https://opendatalab.github.io/LEGION/
数据集下载: https://huggingface.co/datasets/khr0516/SynthScars

搜集汇总

数据集介绍

构建方式

SynthScars数据集的构建依托于生成技术的快速发展，旨在解决现有合成图像检测方法在文本解释性和图像操纵检测方面的不足。该数据集包含12,236张全合成图像，涵盖4种不同的图像内容类型和3类人工痕迹。每张图像均经过人类专家的精细标注，包括像素级分割、详细的文本解释以及人工痕迹类别标签。通过这种多层次的标注方式，数据集为合成图像检测提供了丰富的训练和评估资源。

特点

SynthScars数据集以其高质量和多样性著称，不仅包含多种图像内容类型和人工痕迹类别，还提供了像素级分割和详细的文本解释。这种精细的标注方式使得数据集在合成图像检测领域具有显著的优势。此外，数据集的规模和多样性为模型的鲁棒性和泛化能力提供了有力支持，使其在多个基准测试中表现出色。

使用方法

SynthScars数据集的使用方法涵盖了训练和评估两个主要环节。用户可以通过下载数据集并按照指定结构解压至本地文件夹，随后利用提供的训练脚本进行模型训练。数据集支持多种任务，包括人工痕迹定位、解释生成和深度伪造检测。此外，用户还可以通过提供的推断脚本对自定义数据进行测试。数据集的多样性和精细标注使其成为合成图像检测研究的理想选择。

背景与挑战

背景概述

随着生成技术的迅猛发展，合成图像检测成为了计算机视觉领域的重要研究方向。SynthScars数据集由Hengrui Kang、Siwei Wen等研究人员于2025年创建，旨在解决合成图像检测中的关键问题。该数据集包含12,236张高质量合成图像，涵盖4种不同的图像内容类型和3类人工痕迹，并提供了像素级分割、详细文本解释和人工痕迹类别标签等细粒度标注。SynthScars的推出为合成图像检测领域提供了重要的数据支持，推动了多模态大语言模型（MLLM）在图像伪造分析中的应用，特别是在人工痕迹定位、解释生成和伪造检测方面展现了显著优势。

当前挑战

SynthScars数据集在构建和应用过程中面临多重挑战。首先，合成图像检测领域的主要挑战在于如何准确识别并解释图像中的人工痕迹，尤其是随着生成技术的不断进化，人工痕迹的隐蔽性和复杂性显著增加。其次，数据集的构建过程中，研究人员需要克服生成器过时和标注粒度不足的问题，确保数据集的多样性和高质量。此外，如何将多模态大语言模型与图像分析任务有效结合，进一步提升模型的解释能力和检测精度，也是当前研究中的一大难点。这些挑战不仅推动了技术的进步，也为未来研究提供了新的方向。

常用场景

经典使用场景

SynthScars数据集在合成图像检测领域具有广泛的应用，尤其是在图像伪造检测和解释生成方面。该数据集通过提供高质量的合成图像和精细的像素级注释，使得研究人员能够深入分析图像中的伪造痕迹。其经典使用场景包括训练和评估多模态大语言模型（MLLM）框架，如LEGION，以进行伪造定位、解释生成和检测任务。通过这一数据集，研究人员能够更好地理解图像中的伪造特征，并开发出更精确的检测算法。

衍生相关工作

SynthScars数据集的发布推动了多个相关研究领域的发展。基于该数据集，研究人员开发了LEGION框架，该框架在伪造定位、解释生成和检测任务中表现出色，成为该领域的标杆工作。此外，该数据集还激发了更多关于多模态大语言模型在图像分析中的应用研究，推动了图像生成和检测技术的交叉融合。这些衍生工作不仅提升了合成图像检测的精度，还为图像生成技术的优化提供了新的思路。

数据集最近研究