CUB-sketch 和 MSCOCO-sketch

Name: CUB-sketch 和 MSCOCO-sketch
Creator: 悉尼科技大学，澳大利亚
Published: 2025-03-10 16:34:31
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07047v1

下载链接

链接失效反馈

官方服务：

资源简介：

CUB-sketch和MSCOCO-sketch是两个新型数据集，它们结合了图像、文本和草图，专门为三模态（图像+文本+部分草图）图像修复任务设计。这两个数据集由悉尼科技大学和合肥工业大学共同创建，旨在为图像修复研究提供新的资源和基准。数据集包含了配对的图像、文本和草图数据，可用于训练和测试图像修复模型，特别是在处理部分损坏物体的场景中，提供了重要的结构和细节信息。

CUB-sketch and MSCOCO-sketch are two novel datasets that combine images, text, and sketches, specifically designed for the tri-modal (image + text + partial sketch) image inpainting task. These two datasets were co-created by the University of Technology Sydney and Hefei University of Technology, aiming to provide new resources and benchmarks for image inpainting research. The datasets contain paired image, text, and sketch data, which can be used to train and test image inpainting models, especially providing important structural and detailed information for scenarios with partially damaged objects.

提供机构：

悉尼科技大学，澳大利亚

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

CUB-sketch 和 MSCOCO-sketch 是为了支持三模态（图像 + 文本 + 部分草图）图像补全任务而创建的两个数据集。这两个数据集的构建过程包括三个主要步骤：掩码生成、部分掩码和部分草图生成。首先，生成放大的实例掩码以覆盖背景区域，然后使用贝塞尔曲线随机扫描掩码，创建部分遮挡的对象掩码。最后，从原始图像中生成六种不同类型的草图，用于支持在推理过程中使用不同自由手风格的草图操作。通过这些步骤，CUB-sketch 和 MSCOCO-sketch 数据集包含了成对的图像、文本和草图数据，为三模态图像补全研究提供了丰富的资源。

特点

CUB-sketch 和 MSCOCO-sketch 数据集的特点在于它们包含了丰富的三模态数据，即图像、文本和草图，这些数据对于训练能够精确恢复部分损坏主要对象的图像补全模型至关重要。此外，这些数据集还包含了部分遮挡的对象掩码，这对于训练模型以理解未损坏区域与损坏区域之间的关系非常有用。这些数据集的特点使得它们成为三模态图像补全研究的理想基准。

使用方法

CUB-sketch 和 MSCOCO-sketch 数据集的使用方法涉及将图像、文本和草图数据输入到训练图像补全模型中。在训练过程中，模型学习如何利用文本和草图信息来指导图像的补全，同时保持与未损坏区域的一致性。此外，这些数据集还可以用于评估和比较不同的图像补全方法的性能。通过使用这些数据集进行实验，研究人员可以更好地理解不同方法的优缺点，并开发出更精确、可控的图像补全模型。

背景与挑战

背景概述

在图像修复领域，特别是在部分损坏的主要物体修复方面，存在着明显的挑战。部分损坏的主要物体，即图像中具有清晰语义意义的显著元素，在损坏区域部分被遮挡，而其他部分仍然完好。现有的方法在利用这些线索方面存在困难。虽然文本提示可以提供语义方向，但它们通常无法精确恢复细粒度的结构细节，例如物体的整体姿态，确保与背景中可见物体信息的一致性。这种局限性源于文本提示无法提供像素级的特异性。为了解决这个问题，研究人员提出了将文本引导与新颖的视觉辅助工具相结合的方法：一种随意的草图，可以根据可见物体部分由任何人粗略地绘制。这种草图提供了关键的结构线索，使生成模型能够生成与现有背景无缝集成的物体结构。为了支持这项研究，研究人员创建了两个数据集，CUB-sketch 和 MSCOCO-sketch，每个数据集都结合了图像、草图和文本。广泛的定性和定量实验表明，他们的方法优于几种最先进的方法。

当前挑战

CUB-sketch 和 MSCOCO-sketch 数据集所面临的挑战包括：1) 在部分损坏的主要物体修复方面，需要精确控制物体姿态的挑战；2) 在构建过程中，需要将草图、图像和文本三种模态数据集相结合的挑战。这些挑战需要研究人员开发新的模型和方法，以便更好地利用草图信息，同时保持与现有背景的一致性。

常用场景

经典使用场景

CUB-sketch 和 MSCOCO-sketch 数据集主要用于图像修复领域，特别是在部分损坏的主要物体修复方面。这两个数据集通过结合图像、文本和草图信息，为图像修复模型提供了丰富的训练数据，使得模型能够在修复图像时更准确地恢复物体的结构细节和语义信息。

实际应用

CUB-sketch 和 MSCOCO-sketch 数据集在实际应用中具有广泛的应用前景。例如，在文物保护领域，可以利用这两个数据集训练的模型对受损的文物图像进行修复，恢复文物的原始面貌。在医疗影像领域，可以利用这两个数据集训练的模型对受损的医学影像进行修复，提高医学影像的清晰度和可读性。在视频编辑领域，可以利用这两个数据集训练的模型对受损的视频进行修复，提高视频的质量和观赏性。

衍生相关工作

CUB-sketch 和 MSCOCO-sketch 数据集的提出，推动了图像修复领域的发展，并衍生出了一系列相关的经典工作。例如，基于这两个数据集的研究工作提出了新的图像修复模型和算法，如 Visual Sketch Self-Aware (VSSA) 模块，这些模型和算法能够在修复图像时更准确地恢复物体的结构细节和语义信息。此外，CUB-sketch 和 MSCOCO-sketch 数据集还为图像修复领域的研究提供了新的思路和方法，如将草图信息与其他类型的图像信息相结合，以提高图像修复的精度和效果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集