DiQuID

Name: DiQuID
Creator: 亚里士多德大学电子与计算机工程学院, 希腊信息技术研究所CERTH
Published: 2025-02-10 23:56:28
License: 暂无描述

arXiv2025-02-10 更新2025-02-12 收录

下载链接：

https://github.com/mever-team/DiQuID

下载链接

链接失效反馈

官方服务：

资源简介：

DiQuID数据集是由亚里士多德大学电子与计算机工程学院和希腊信息技术研究所CERTH共同创建的高质量图像修复数据集。该数据集包含从MSCOCO、RAISE和OpenImages三个数据集中选取的78,684张原始图像生成的95,839张修复图像。数据集的创建采用了一种系统的方法，包括语义对齐的对象替换、多模型图像修复和不确定性指导的欺骗性评估三个主要组成部分，以确保图像修复的质量和多样性。该数据集旨在解决图像修复检测中缺乏大规模、高质量数据的问题，可用于训练和评估伪造检测算法。

The DiQuID dataset is a high-quality image inpainting dataset jointly created by the School of Electrical and Computer Engineering of Aristotle University of Thessaloniki and the Greek Information Technology Research Institute CERTH. This dataset includes 95,839 inpainted images generated from 78,684 original images selected from three existing datasets: MSCOCO, RAISE and OpenImages. The construction of the dataset adopts a systematic approach, which consists of three core components: semantically aligned object replacement, multi-model image inpainting, and uncertainty-guided deceptive evaluation, to ensure the quality and diversity of the inpainted images. This dataset aims to address the shortage of large-scale, high-quality data for image inpainting detection, and can be used for training and evaluating forgery detection algorithms.

提供机构：

亚里士多德大学电子与计算机工程学院, 希腊信息技术研究所CERTH

创建时间：

2025-02-10

原始信息汇总

DiQuID 数据集概述

数据集名称

DiQuID

数据集描述

DiQuID是一个大规模的由AI生成的图像修复基准数据集。

数据集用途

用于图像修复领域的评估和基准测试。

代码仓库

DiQuID GitHub 代码仓库

代码可用性

代码将在不久的将来提供。

搜集汇总

数据集介绍

构建方式

DiQuID数据集的构建采用了创新的自动生成技术，涵盖了三个主要组成部分。首先，通过语义对齐对象替换（SAOR）方法，利用实例分割技术识别合适的对象，并生成与上下文相符的提示。其次，多模型图像修复（MMII）方法采用多种基于扩散模型的最新修复流程，以确保多样化的修复效果。最后，不确定性引导的欺骗性评估（UGDA）方法通过比较修复图像与原始图像，评估图像的真实性。DiQuID数据集共包含超过95,000张修复图像，这些图像是从78,000张原始图像中生成的，原始图像来自MSCOCO、RAISE和OpenImages等公开数据集。

特点

DiQuID数据集的特点在于其规模之大、多样性之广和修复质量之高。该数据集是目前为止规模最大、最多样化的AI生成图像修复检测数据集，涵盖了多种修复方法和多样化的图像类型。数据集的修复图像质量高，真实感强，能够为修复检测算法提供有效的训练和评估。

使用方法

DiQuID数据集的使用方法包括：1. 作为修复检测算法的训练数据集，用于提高算法的检测准确性和鲁棒性；2. 作为修复检测算法的评估数据集，用于评估算法在不同场景下的性能；3. 作为修复检测算法的研究数据集，用于研究修复检测算法的改进和创新。

背景与挑战

背景概述

图像修复技术，尤其是文本引导的图像修复，近年来随着生成式人工智能工具的快速发展而日益成熟。DiQuID数据集的创建旨在应对这一领域中的挑战，特别是针对伪造检测的需求。该数据集由来自MSCOCO、RAISE和OpenImages的原始图像生成，包含了超过9.5万张修复后的图像。DiQuID的创建时间是在生成式模型能够产生高度逼真图像修复结果之后，这引起了对于伪造检测方法的迫切需求。该数据集的主要研究人员来自亚里士多德大学塞萨洛尼基电气与计算机工程系和信息技术研究所。核心研究问题是创建一个大规模、多样化的图像修复数据集，以评估和提高伪造检测算法的性能。DiQuID数据集对相关领域的影响力在于，它提供了迄今为止最大规模、最多样化的AI生成图像修复检测数据集，有助于推动伪造检测技术的发展。

当前挑战

DiQuID数据集面临的主要挑战包括：1) 创建一个能够生成逼真修复图像的数据集，这些图像足以欺骗人类的视觉感知；2) 设计一个评估图像真实性的方法，能够自动化地识别出那些具有欺骗性的图像修复；3) 构建一个包含多样化和高分辨率图像的数据集，以便于评估和改进检测算法。这些挑战在数据集的构建过程中得到了解决，例如通过使用大型语言模型来生成详细的、上下文相关的提示，以及采用多种先进的修复模型来确保图像修复的多样性和质量。

常用场景

经典使用场景

DiQuID数据集是用于评估和改进图像修复检测算法的。该数据集包含了超过95,000张修复后的图像，这些图像是通过78,000张原始图像生成的。这些原始图像来自于MSCOCO、RAISE和OpenImages数据集。DiQuID数据集的特点是多样性、美观性和技术质量都超越了现有的数据集。使用DiQuID数据集，研究者可以训练和评估最新的图像修复检测算法，以应对日益严重的图像篡改问题。

解决学术问题

DiQuID数据集解决了图像修复检测领域中的两个关键问题：一是确保语义一致性，即修复后的图像与原始图像在语义上保持一致；二是维持多样性，即数据集中的修复方法要多样化，以应对不同类型的篡改。此外，DiQuID数据集还引入了一种新的真实性评估方法，使用视觉语言模型比较修复后的图像和原始图像，以识别出具有欺骗性的修复。这些改进使得DiQuID数据集成为图像修复检测领域的重要资源，推动了该领域的研究进展。

衍生相关工作

DiQuID数据集的发布促进了图像修复检测领域的研究进展，并衍生出了一系列相关工作。例如，研究者们使用DiQuID数据集评估了现有的图像修复检测算法的性能，并提出了新的检测算法和评估方法。此外，DiQuID数据集还激发了研究者们对图像修复检测算法的鲁棒性进行深入研究，以提高算法在实际应用中的效果。

以上内容由遇见数据集搜集并总结生成