SynthScars
收藏github2025-03-21 更新2025-03-22 收录
下载链接:
https://github.com/opendatalab/LEGION
下载链接
链接失效反馈官方服务:
资源简介:
SynthScars是一个高质量且多样化的数据集,包含12,236张完全合成的图像,并带有专家注释。该数据集具有4种不同的图像内容类型、3类伪影,以及涵盖像素级分割、详细文本解释和伪影类别标签的细粒度注释。
SynthScars is a high-quality and diverse dataset consisting of 12,236 fully synthetic images accompanied by expert annotations. It features four distinct image content types, three artifact categories, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels.
创建时间:
2025-03-18
原始信息汇总
LEGION: Learning to Ground and Explain for Synthetic Image Detection 数据集概述
📌 数据集基本信息
- 数据集名称: SynthScars
- 数据量: 12,236张全合成图像
- 标注类型: 人工专家标注
- 内容类型: 4种不同图像内容类型
- 标注粒度:
- 像素级分割
- 详细文本解释
- 伪影类别标签
🏆 数据集特点
- 高质量多样性: 包含多种内容类型和伪影类别
- 精细标注:
- 3类伪影标注
- 像素级分割标注
- 详细文本解释
📦 数据集结构
./data └── SynthScars ├── train │ ├── images │ └── annoations │ └── train.json └── test ├── images └── annoations └── test.json
📊 性能表现
- 伪影定位: 在SynthScars、RichHF-18K和LOKI数据集上评估
- 解释生成: 在SynthScars和LOKI数据集上评估
- 深度伪造检测: 在UniversialFakeDetect基准测试上评估
🛠️ 使用方式
- 作为防御者:
- 伪影定位和解释生成训练
- 深度伪造检测训练
- 作为控制器:
- 图像再生
- 区域修复
📜 引用格式
bibtex @misc{kang2025legionlearninggroundexplain, title={LEGION: Learning to Ground and Explain for Synthetic Image Detection}, author={Hengrui Kang and Siwei Wen and Zichen Wen and Junyan Ye and Weijia Li and Peilin Feng and Baichuan Zhou and Bin Wang and Dahua Lin and Linfeng Zhang and Conghui He}, year={2025}, eprint={2503.15264}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.15264}, }
🔗 相关资源
- 论文地址: https://arxiv.org/pdf/2503.15264
- 项目页面: https://opendatalab.github.io/LEGION/
- 数据集下载: https://huggingface.co/datasets/khr0516/SynthScars
搜集汇总
数据集介绍

构建方式
SynthScars数据集的构建依托于生成技术的快速发展,旨在解决现有合成图像检测方法在文本解释性和图像操纵检测方面的不足。该数据集包含12,236张全合成图像,涵盖4种不同的图像内容类型和3类人工痕迹。每张图像均经过人类专家的精细标注,包括像素级分割、详细的文本解释以及人工痕迹类别标签。通过这种多层次的标注方式,数据集为合成图像检测提供了丰富的训练和评估资源。
特点
SynthScars数据集以其高质量和多样性著称,不仅包含多种图像内容类型和人工痕迹类别,还提供了像素级分割和详细的文本解释。这种精细的标注方式使得数据集在合成图像检测领域具有显著的优势。此外,数据集的规模和多样性为模型的鲁棒性和泛化能力提供了有力支持,使其在多个基准测试中表现出色。
使用方法
SynthScars数据集的使用方法涵盖了训练和评估两个主要环节。用户可以通过下载数据集并按照指定结构解压至本地文件夹,随后利用提供的训练脚本进行模型训练。数据集支持多种任务,包括人工痕迹定位、解释生成和深度伪造检测。此外,用户还可以通过提供的推断脚本对自定义数据进行测试。数据集的多样性和精细标注使其成为合成图像检测研究的理想选择。
背景与挑战
背景概述
随着生成技术的迅猛发展,合成图像检测成为了计算机视觉领域的重要研究方向。SynthScars数据集由Hengrui Kang、Siwei Wen等研究人员于2025年创建,旨在解决合成图像检测中的关键问题。该数据集包含12,236张高质量合成图像,涵盖4种不同的图像内容类型和3类人工痕迹,并提供了像素级分割、详细文本解释和人工痕迹类别标签等细粒度标注。SynthScars的推出为合成图像检测领域提供了重要的数据支持,推动了多模态大语言模型(MLLM)在图像伪造分析中的应用,特别是在人工痕迹定位、解释生成和伪造检测方面展现了显著优势。
当前挑战
SynthScars数据集在构建和应用过程中面临多重挑战。首先,合成图像检测领域的主要挑战在于如何准确识别并解释图像中的人工痕迹,尤其是随着生成技术的不断进化,人工痕迹的隐蔽性和复杂性显著增加。其次,数据集的构建过程中,研究人员需要克服生成器过时和标注粒度不足的问题,确保数据集的多样性和高质量。此外,如何将多模态大语言模型与图像分析任务有效结合,进一步提升模型的解释能力和检测精度,也是当前研究中的一大难点。这些挑战不仅推动了技术的进步,也为未来研究提供了新的方向。
常用场景
经典使用场景
SynthScars数据集在合成图像检测领域具有广泛的应用,尤其是在图像伪造检测和解释生成方面。该数据集通过提供高质量的合成图像和精细的像素级注释,使得研究人员能够深入分析图像中的伪造痕迹。其经典使用场景包括训练和评估多模态大语言模型(MLLM)框架,如LEGION,以进行伪造定位、解释生成和检测任务。通过这一数据集,研究人员能够更好地理解图像中的伪造特征,并开发出更精确的检测算法。
衍生相关工作
SynthScars数据集的发布推动了多个相关研究领域的发展。基于该数据集,研究人员开发了LEGION框架,该框架在伪造定位、解释生成和检测任务中表现出色,成为该领域的标杆工作。此外,该数据集还激发了更多关于多模态大语言模型在图像分析中的应用研究,推动了图像生成和检测技术的交叉融合。这些衍生工作不仅提升了合成图像检测的精度,还为图像生成技术的优化提供了新的思路。
数据集最近研究
最新研究方向
随着生成技术的迅猛发展,合成图像检测领域面临着前所未有的挑战与机遇。SynthScars数据集的推出,为这一领域注入了新的活力。该数据集不仅包含了12,236张高质量的合成图像,还提供了像素级分割、详细文本解释和伪影类别标签的精细标注,极大地丰富了合成图像检测的研究资源。基于此,研究者提出了LEGION框架,该框架结合了多模态大语言模型(MLLM),能够实现伪影检测、分割和解释的一体化分析。LEGION不仅在多个基准测试中表现优异,还在图像生成控制方面展现出巨大潜力,能够引导生成更高质量、更逼真的图像。这一研究不仅推动了合成图像检测技术的发展,还为生成技术的安全应用提供了新的思路。
以上内容由遇见数据集搜集并总结生成



