Multi-Mask Inpainting Dataset

github2024-12-02 更新2024-12-06 收录

下载链接：

https://github.com/cilabuniba/i-dream-my-painting

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于多掩码图像修复任务，包含从WikiArt API下载的图像以及使用Kosmos-2和LLaVA模型生成的全局和对象级别的标注。数据集的创建包括图像下载、掩码生成和实体数据集的构建。

This dataset is intended for the multi-mask image inpainting task. It contains images downloaded from the WikiArt API, as well as global-level and object-level annotations generated using the Kosmos-2 and LLaVA models. The dataset creation process includes image downloading, mask generation, and entity dataset construction.

创建时间：

2024-12-02

原始信息汇总

I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting (WACV 2025)

数据集概述

数据集准备

下载图像

使用WikiArt API下载图像，命令如下： bash python -m inpainting.data.downloader download-and-save-images-wikiart-v2 -o data/mm_inp_dataset/images
下载完成后，图像数量应为116475。

制作数据集

数据集包含全局图像注释和对象级注释。
数据集制作步骤包括：
1. 从注释生成掩码（~10分钟）。
2. 生成实体数据集（~10分钟）。
3. 使用Spacy提取名词块根（~2分钟）。
4. 使用LLaVA-1.6-Vicuna-13B为掩码生成描述（可选，耗时较长）。
5. 将LLaVA注释移动到实体目录（~5秒）。
6. 清理并保存LLaVA注释（~10秒）。
7. 分割数据集（已分割则跳过）。

数据集结构

图像与多个掩码关联，每个掩码对应一个对象裁剪及其LLaVA生成的对象级描述。

模型训练与测试

模型下载

从Google Drive下载模型权重：
- LLaVA-MultiMask: 解压并移动到models/llava目录。
- SD-2-Inp-RCA-FineTuned: 解压并移动到models/sd目录。

实验结果

提供了多个模型的训练和测试命令，包括LLaVA-Prompt、LLaVA-1Mask、LLaVA-MultiMask等。
多掩码修复模型的结果包括FID、LPIPS、PSNR、CLIP-IQA、CLIPSim-I2I、CLIPSim-T2I等指标。

引用

如果使用该数据集，请引用相关论文： bibtex @inproceedings{fanelli2025idream, title = {I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting}, author = {Nicola, Fanelli and Gennaro, Vessio and Giovanna, Castellano}, year = {2025}, booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision} }

搜集汇总

数据集介绍

构建方式

该数据集的构建过程融合了先进的计算机视觉技术与艺术领域的深度分析。首先，通过Kosmos-2模型进行全局图像注释，随后利用LLaVA模型进行对象级别的注释。这些注释数据被进一步处理，生成图像的掩码（masks）和实体（entities），并通过Spacy工具提取名词短语的根节点。最终，这些数据被整合并分割为训练、验证和测试集，以支持多掩码修复任务的研究。

特点

Multi-Mask Inpainting Dataset的显著特点在于其高度结构化的数据组织和丰富的注释信息。每个图像不仅关联多个掩码，还包含由LLaVA模型生成的对象级描述，这为研究提供了详尽的上下文信息。此外，数据集的构建过程中采用了多种先进模型，确保了数据的高质量和多样性，适用于多种计算机视觉任务。

使用方法

使用该数据集时，用户需先下载并解压相关注释文件，然后通过提供的脚本下载图像并生成数据集。接着，用户可以根据需要运行数据预处理脚本，生成掩码和实体数据。为了进一步利用数据集，用户可以下载预训练模型权重，并按照说明设置多掩码修复模型。最后，通过运行提供的Jupyter笔记本，用户可以尝试使用该模型进行图像修复实验。

背景与挑战

背景概述

Multi-Mask Inpainting Dataset是由Nicola Fanelli、Gennaro Vessio和Giovanna Castellano等研究人员于2025年创建的，旨在解决文本引导的多重掩码图像修复问题。该数据集通过连接多模态大型语言模型（MLLMs）和扩散模型，利用提示生成技术，推动了计算机视觉和艺术领域的研究。其核心研究问题是如何在文本提示的指导下，对图像中的多个掩码区域进行精确修复，从而提升图像生成和编辑的质量。该数据集的创建不仅为相关领域的研究提供了丰富的资源，还为未来的图像处理技术奠定了基础。

当前挑战

Multi-Mask Inpainting Dataset在构建过程中面临多项挑战。首先，数据集的构建需要处理大量的图像和文本数据，确保每张图像的掩码区域与文本提示的准确对应。其次，生成高质量的掩码和对象级描述需要复杂的模型和算法支持，如Kosmos-2和LLaVA模型，这些模型的训练和优化过程耗时且资源密集。此外，数据集的多样性和覆盖范围也是一个挑战，确保数据集能够涵盖各种图像类型和场景，以提高模型的泛化能力。最后，数据集的标注和预处理步骤繁琐，需要高效的自动化工具和方法来减少人工干预和错误。

常用场景

经典使用场景

在计算机视觉与艺术创作的交叉领域，Multi-Mask Inpainting Dataset 被广泛应用于多掩码图像修复任务。该数据集通过结合大规模语言模型（MLLMs）和扩散模型，实现了文本引导的多掩码图像修复。其经典使用场景包括图像修复、艺术创作中的图像生成与编辑，以及通过文本描述生成或修改图像内容。

实际应用

在实际应用中，Multi-Mask Inpainting Dataset 被用于图像编辑软件、艺术创作工具和虚拟现实（VR）内容生成。例如，艺术家和设计师可以利用该数据集生成或修改图像，以满足特定的创作需求。此外，该数据集还可应用于医学图像修复、历史照片修复等专业领域，提升图像处理的效果和效率。

衍生相关工作

基于 Multi-Mask Inpainting Dataset，研究者们开发了多种先进的图像修复和生成模型。例如，LLaVA-MultiMask 模型通过结合多掩码信息和文本描述，显著提升了图像修复的准确性和自然度。此外，该数据集还促进了扩散模型在图像修复中的应用，推动了相关领域的技术进步和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集