TGIF: Text-Guided Inpainting Forgery Dataset

github2024-07-16 更新2024-07-21 收录

下载链接：

https://github.com/IDLabMedia/tgif-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约75k张通过文本引导的修补方法（SD2、SDXL和Adobe Firefly）处理的伪造图像。真实图像来自MS-COCO数据集，分辨率高达1024x1024像素。数据集包括修补区域拼接的原图和完全再生的图像。

This dataset contains approximately 75,000 forged images processed via text-guided inpainting methods (SD2, SDXL, and Adobe Firefly). The authentic images are sourced from the MS-COCO dataset, with resolutions up to 1024×1024 pixels. The dataset includes both original images with spliced inpainted regions and fully regenerated images.

创建时间：

2024-07-12

原始信息汇总

TGIF: Text-Guided Inpainting Forgery Dataset

数据集概述

数据量：约75,000张伪造图像。
图像来源：原始图像来自MS-COCO，采用CC BY 4.0 许可，分辨率最高达1024x1024像素。
伪造方法：使用文本引导的图像修复方法（SD2、SDXL和Adobe Firefly）进行图像篡改。
图像类型：提供两种类型的图像：
- 篡改区域拼接在原始图像上的图像（SD2-sp, PS-sp）。
- 完全重新生成的图像（SD2-fr, SDXL-fr），如果可能的话。

数据集许可

该数据集遵循CC BY-SA 4.0 许可。

下载链接

伪造图像：
- SD2 (46 GB)
- SDXL (41 GB)
- Adobe Firefly (17.8 GB)
真实图像：
- SD2 (4 GB)
- SDXL crops (3 GB)
掩码：
- SD2
- SDXL
- Photoshop masks
元数据：
- SD2
- SDXL

搜集汇总

数据集介绍

构建方式

TGIF数据集的构建基于MS-COCO数据集，通过文本引导的图像修复技术生成伪造图像。具体而言，数据集使用了三种先进的图像修复工具：SD2、SDXL和Adobe Firefly。每张原始图像通过两种类型的掩码（分割掩码和边界框掩码）进行处理，每种掩码生成三种变体，总计每张原始图像生成24张伪造图像。这些伪造图像分为两类：拼接图像（SD2-sp和PS-sp）和完全再生图像（SD2-fr和SDXL-fr）。

特点

TGIF数据集的显著特点在于其大规模和多样性。数据集包含约75,000张伪造图像，涵盖了多种图像修复技术生成的不同变体。此外，数据集提供了详细的元数据，包括NIMA、GIQA和ITM评分，有助于深入分析图像质量。数据集的结构设计合理，分为训练、验证和测试集，便于在不同阶段进行模型评估和优化。

使用方法

TGIF数据集适用于图像伪造检测和图像修复技术的研究。用户可以通过提供的下载链接获取数据集，并根据需要选择不同的子集进行实验。数据集的元数据和评分信息可用于评估和比较不同图像修复技术的性能。此外，数据集中包含的代码示例可以帮助用户理解和实现文本引导的图像修复过程，以及计算相关图像质量指标。

背景与挑战

背景概述

TGIF: Text-Guided Inpainting Forgery Dataset（TGIF）是由Hannes Mareen、Dimitrios Karageorgiou、Glenn Van Wallendael、Peter Lambert和Symeon Papadopoulos等研究人员创建的，旨在解决文本引导图像修复伪造检测的核心问题。该数据集于2024年由IEEE国际信息取证与安全研讨会（WIFS 2024）接受并发布，包含约75,000张通过文本引导修复方法（如SD2、SDXL和Adobe Firefly）生成的伪造图像。这些图像源自MS-COCO数据集，分辨率高达1024x1024像素。TGIF数据集的推出，为图像取证领域提供了丰富的资源，有助于推动文本引导修复伪造检测技术的发展。

当前挑战

TGIF数据集在构建过程中面临多项挑战。首先，生成高质量的伪造图像需要精确的文本引导修复技术，这对算法和计算资源提出了高要求。其次，数据集的多样性和真实性确保了检测算法的鲁棒性，但同时也增加了数据处理的复杂性。此外，如何有效区分拼接修复和完全再生修复图像，以及如何评估这些图像的质量和真实性，也是该数据集面临的重要挑战。最后，随着生成对抗网络（GANs）和深度学习技术的不断进步，保持数据集的前沿性和实用性，确保其对最新检测方法的适应性，是持续面临的挑战。

常用场景

经典使用场景

在图像处理与计算机视觉领域，TGIF数据集以其独特的文本引导图像修复伪造特性，成为研究图像篡改检测的经典工具。该数据集通过文本指令对原始图像进行修复操作，生成大量伪造图像，为研究人员提供了一个丰富的实验平台。这些伪造图像不仅包括拼接区域与原始图像的融合，还涵盖了完全再生的图像，从而模拟了多种图像篡改手段。

实际应用

在实际应用中，TGIF数据集为图像取证和内容真实性验证提供了有力支持。例如，在新闻媒体和社交媒体中，图像的真实性至关重要。通过使用TGIF数据集训练的模型，可以有效检测和防止图像的篡改，确保信息的真实性和可信度。此外，该数据集还可应用于法律取证、保险欺诈检测等领域，帮助识别和防止图像伪造行为，维护社会公正和安全。

衍生相关工作

TGIF数据集的发布激发了大量相关研究工作。例如，基于该数据集的图像篡改检测算法研究，不仅提升了检测精度，还推动了多模态数据融合技术的应用。此外，TGIF数据集还促进了图像修复技术的研究，特别是在文本引导下的图像修复方法，为生成对抗网络（GANs）和扩散模型（Diffusion Models）的应用提供了新的思路。这些研究成果不仅丰富了图像处理领域的理论基础，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集