five

TGIF2

收藏
arXiv2026-03-30 更新2024-07-18 收录
下载链接:
https://github.com/IDLabMedia/tgif-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TGIF2是由根特大学和希腊研究与技术中心联合构建的文本引导修复伪造数据集,作为TGIF的扩展版本,新增了FLUX.1模型生成的编辑图像及随机非语义掩码。该数据集包含约7.5万张高分辨率图像(最高1024×1024像素),源自MS-COCO的3000张基础图像,涵盖拼接和完全再生两类篡改方式。通过集成Stable Diffusion、Adobe Firefly等先进模型,数据集重点捕捉生成式AI在局部图像编辑中产生的法医痕迹,用于评估伪造定位与合成检测方法的鲁棒性,尤其针对超分辨率攻击等新兴挑战。

TGIF2 is a text-guided inpainting forgery dataset jointly developed by Ghent University and the Centre for Research and Technology Hellas. As an extended version of the original TGIF dataset, it newly includes edited images generated by the FLUX.1 model and random non-semantic masks. This dataset contains approximately 75,000 high-resolution images (up to 1024×1024 pixels), which are derived from 3,000 base images from the MS-COCO dataset, and covers two types of tampering methods: splicing and full regeneration. By integrating advanced models such as Stable Diffusion and Adobe Firefly, this dataset focuses on capturing forensic traces generated by generative AI during local image editing, and is designed to evaluate the robustness of forgery localization and synthetic detection methods, particularly against emerging challenges such as super-resolution attacks.
提供机构:
根特大学·IDLab; 希腊研究与技术中心·信息技术研究所
创建时间:
2026-03-30
原始信息汇总

TGIF: Text-Guided Inpainting Forgery Dataset

数据集概述

  • 数据量:约75,000张伪造图像。
  • 图像来源:原始图像来自MS-COCO,采用CC BY 4.0 许可,分辨率最高达1024x1024像素。
  • 伪造方法:使用文本引导的图像修复方法(SD2、SDXL和Adobe Firefly)进行图像篡改。
  • 图像类型:包括篡改区域拼接的原图像(SD2-sp, PS-sp)和完全重新生成的图像(SD2-fr, SDXL-fr)。

数据集许可

数据集内容

  • 伪造图像
    • SD2:46 GB
    • SDXL:41 GB
    • Adobe Firefly:17.8 GB
  • 真实图像
    • SD2:4 GB
    • SDXL crops:3 GB
  • 掩码
    • SD2
    • SDXL
    • Photoshop masks
  • 元数据
    • SD2
    • SDXL
搜集汇总
数据集介绍
main_image_url
构建方式
Text-Guided Inpainting Forgery (TGIF) 数据集的构建基于三种文本引导的图像修复技术:SD2、SDXL 和 Adobe Firefly。研究人员首先从 MS-COCO 数据集(val2017)中收集了真实图像,并提供了带有标题和物体掩码的图片。然后,使用这三种修复方法生成图像,其中真实的物体被同一类别的生成物体所替换。对于 SD2 和 SDXL,研究人员保存了拼接的图像和完全重新生成的图像;而对于 Adobe Firefly,仅保存了拼接的图像。数据集包括大约 75,000 个伪造图像,并且包含了元数据,例如估计的美学质量和图像-文本匹配分数。
特点
TGIF 数据集具有以下特点:1)高分辨率:数据集中的图像分辨率高达 1024×1024 像素,可以更好地模拟真实世界的场景。2)多样性:数据集使用了三种不同的修复方法,并且提供了拼接和完全重新生成的图像版本,从而提供了更广泛的测试场景。3)元数据丰富:数据集包含了美学质量和图像-文本匹配分数等元数据,可以帮助研究人员更好地理解图像修复过程。
使用方法
TGIF 数据集可用于训练和评估图像伪造定位和合成图像检测方法。研究人员可以使用数据集中的真实图像和伪造图像来训练深度学习模型,从而提高模型的检测和定位能力。此外,数据集中的元数据可以帮助研究人员更好地理解图像修复过程,并开发更有效的检测方法。
背景与挑战
背景概述
在生成式人工智能技术的推动下,数字图像处理变得日益普及和逼真。近年来,基于文本引导的修复技术取得了突破性进展,使得即便非专业人士也能轻松进行复杂的图像编辑。然而,这种技术的普及也带来了新的挑战,特别是对数字媒体取证领域。例如,基于扩散模型的修复方法可能将修复区域拼接回原始图像,或者重新生成整个图像。在后一种情况下,传统的图像伪造定位(IFL)方法通常失效。为了应对这一挑战,本文介绍了Text-Guided Inpainting Forgery(TGIF)数据集,这是一个全面的图像集合,旨在支持图像伪造定位和合成图像检测(SID)方法的训练和评估。该数据集包括约75k个伪造图像,来源于流行的开源和商业方法,如SD2、SDXL和Adobe Firefly。通过使用这些数据,我们对几种最先进的IFL和SID方法进行了基准测试。结果表明,传统的IFL方法可以检测拼接图像,但无法检测重新生成的修复图像。此外,传统的SID方法可能检测到重新生成的修复图像是伪造的,但不能定位修复区域。最后,当暴露于更强的压缩时,两种方法都失效,而它们对现代压缩算法(如WEBP)的鲁棒性较差。因此,这项工作证明了最先进的检测器在由现代生成方法执行的区域操作上的低效性,并希望帮助开发更强大的IFL和SID方法。
当前挑战
TGIF数据集所解决的领域问题是图像伪造定位和合成图像检测。构建过程中遇到的挑战包括:1) 生成高质量的伪造图像,以模拟真实的伪造情况;2) 提供足够的元数据,以便于研究人员进行深入分析;3) 确保数据集的多样性和复杂性,以涵盖不同的伪造方法和场景;4) 开发有效的评估指标,以准确衡量检测方法的性能。此外,数据集的构建还面临技术上的挑战,如如何有效地生成和处理大量的图像数据,以及如何保证数据的质量和一致性。
常用场景
经典使用场景
在图像编辑和生成领域,Text-Guided Inpainting Forgery (TGIF) 数据集成为了一个重要的资源。该数据集包含了大量的伪造图像,这些图像是通过流行的开源和商业方法生成的,例如 SD2、SDXL 和 Adobe Firefly。研究人员可以利用这些图像来训练和评估图像伪造定位和合成图像检测方法,从而提高这些方法的准确性和鲁棒性。例如,TGIF 数据集可以帮助研究人员开发新的算法来检测和定位图像中的伪造区域,这对于防止虚假信息的传播和确保数字媒体的真实性具有重要意义。
解决学术问题
TGIF 数据集解决了图像伪造定位和合成图像检测中的一些常见问题。传统的图像伪造定位方法通常无法检测到通过文本引导的图像修复方法生成的图像,因为这些方法会重新生成整个图像,从而消除了大部分的图像伪造痕迹。此外,传统的合成图像检测方法虽然可以检测到重新生成的图像,但无法定位到图像中的伪造区域。TGIF 数据集的引入为这些问题提供了解决方案,它包含了通过文本引导的图像修复方法生成的图像,并且提供了图像的元数据和图像文本匹配分数,这些信息可以帮助研究人员开发新的算法来检测和定位图像中的伪造区域。
衍生相关工作
TGIF 数据集的引入也促进了相关领域的研究。例如,研究人员可以利用 TGIF 数据集来开发新的图像伪造定位和合成图像检测方法,这些方法可以更好地应对现代图像编辑技术的挑战。此外,TGIF 数据集还可以用于研究图像压缩对图像伪造检测的影响,以及如何提高图像伪造检测方法对压缩的鲁棒性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作