five

paint-by-inpaint/PIPE

收藏
Hugging Face2025-06-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/paint-by-inpaint/PIPE
下载链接
链接失效反馈
官方服务:
资源简介:
PIPE(Paint by InPaint Edit)数据集旨在通过提供大规模的图像对和多样化的对象添加指令来增强无掩码、指令跟随的图像编辑模型的效果。该数据集包含大约100万对图像,每对图像包括源图像和目标图像,以及相应的自然语言指令。数据集利用了广泛的图像分割数据集(如COCO、Open Images、LVIS),并使用了基于Stable Diffusion的修复模型来创建带有和不带对象的图像对。此外,数据集还包含了多种指令生成技术,如基于类名的指令、基于VLM-LLM的指令和基于手动参考的指令,生成了近190万条不同的指令。数据集还提供了一个用于图像添加评估的测试集。

PIPE (Paint by InPaint Edit) dataset aims to enhance the performance of mask-free, instruction-following image editing models by providing large-scale image pairs and diverse object addition instructions. The dataset contains approximately 1 million image pairs, each consisting of a source image, a target image, and the corresponding natural language instruction. The dataset leverages a wide range of image segmentation datasets such as COCO, Open Images, and LVIS, and uses a Stable Diffusion-based inpainting model to create image pairs with and without target objects. Additionally, the dataset incorporates multiple instruction generation techniques, including class-name-based instructions, VLM-LLM-based instructions, and manual reference-based instructions, generating nearly 1.9 million distinct instructions. Furthermore, the dataset provides a test set for image addition evaluation.
提供机构:
paint-by-inpaint
原始信息汇总

数据集卡片 for PIPE 数据集

数据集概述

PIPE(Paint by InPaint Edit)数据集旨在通过提供大规模的图像对和多样化的对象添加指令,增强无掩码、遵循指令的图像编辑模型的效果。该数据集包含约100万对图像,包括源图像和目标图像,以及相应的自然语言对象添加指令。数据集利用广泛的图像分割数据集(COCO、Open Images、LVIS),并采用基于Stable Diffusion的修复模型创建带有和不带对象的图像对。此外,它还包含了多种指令生成技术,包括基于类名的、基于VLM-LLM的和基于手动参考的指令,共生成近190万条不同指令。我们还提供了一个用于图像添加评估的测试集。

列信息

  • source_img: 用于编辑的源图像,即修复后的图像。
  • target_img: 用于编辑的地面真实(GT)图像,即原始图像。
  • Instruction_VLM-LLM: 使用视觉语言模型(VLM)和大型语言模型(LLM)的两阶段过程生成的详细和多样化的对象添加指令。
  • Instruction_Class: 基于对象类名生成的指令,格式为“添加一个<类>”。
  • Instruction_Ref_Dataset: 使用RefCOCO、RefCOCO+和RefCOCOg等数据集中的对象参考生成的指令。
  • object_location: 图像中添加对象的位置。
  • target_img_dataset: 目标图像所属的数据集。
  • img_id: GT图像(目标图像)的唯一标识符。
  • ann_id: 被移除对象的分割注释的标识符。

加载 PIPE 数据集

以下是如何使用datasets库加载和使用此数据集的示例:

python from datasets import load_dataset

data_files = {"train": "data/train-", "test": "data/test-"} dataset = load_dataset(paint-by-inpaint/PIPE, data_files=data_files)

显示一个示例

example_train = dataset[train][0] print(example_train)

example_test = dataset[test][0] print(example_test)

使用 DataLoader 进行训练

python class ImagePairDataset(Dataset): def init(self, dataset, split=train, location_probability=0.25): self.dataset = dataset[split] self.keys = [source_img, target_img, Instruction_VLM-LLM, Instruction_Class, Instruction_Ref_Dataset, object_location] self.location_probability = location_probability def len(self): return len(self.dataset) def getitem(self, idx): # 选择一个随机指令 instructions = [self.dataset[Instruction_VLM-LLM][idx], self.dataset[Instruction_Class][idx], self.dataset[Instruction_Ref_Dataset][idx]] instruction = random.choice([instr for instr in instructions if instr])

    # 根据预定义概率选择性地添加位置
    if random.random() < self.location_probability: instruction += f" at {self.dataset[object_location][idx]}"

    # 加载图像(已在数据集中加载)
    source_img = self.dataset[source_img][idx]; target_img = self.dataset[target_img][idx]
    
    # 将图像转换为numpy数组
    source_img = np.array(source_img); target_img = np.array(target_img)
    
    return source_img, target_img, instruction

初始化数据集和数据加载器

train_dataset = ImagePairDataset(dataset, split=train) train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)

搜集汇总
数据集介绍
main_image_url
构建方式
PIPE数据集的构建,是通过结合大规模图像分割数据集(如COCO、Open Images、LVIS)与基于Stable Diffusion的修复模型,生成含有与不含有特定物体的图像对,辅以多样化的指令生成技术,形成近190万种不同的添加物体指令。该数据集涵盖了约100万对图像,旨在提升无需遮罩、遵循指令的图像编辑模型的效能。
特点
该数据集的特点在于其规模宏大,包含了丰富的图像对及对应的自然语言添加物体指令。它不仅利用了视觉语言模型和大型语言模型的二级指令生成过程,还包含了基于物体类别的简单指令以及利用现有数据集中的物体引用生成的指令,从而提供了多样化的指令形式和丰富的图像编辑场景。
使用方法
使用PIPE数据集时,可通过指定的数据文件路径加载训练集和测试集。数据集提供了源图像、目标图像以及多种形式的指令,可用于训练和评估图像编辑模型。例如,利用datasets库加载数据集后,可以直接获取图像对和指令,进而进行模型训练或测试。
背景与挑战
背景概述
PIPE (Paint by InPaint Edit) 数据集,是在计算机视觉与自然语言处理领域交叉研究中应运而生的一项重要成果。该数据集创建于近年,由Noam Rotstein等研究人员开发,旨在推动无需蒙版、遵循指令的图像编辑模型的效能提升。PIPE数据集收集了大量的图像对和多样化的对象添加指令,约为100万对图像,这些图像对包括源图像和目标图像,以及对应的自然语言指令。该数据集的构建,利用了COCO、Open Images、LVIS等丰富的图像分割数据集,并通过基于Stable Diffusion的修复模型,生成带有和去除对象的图像对。此外,它还融合了多种指令生成技术,以产生近190万个不同的指令。PIPE数据集的研究成果,对图像编辑领域产生了显著影响,为相关研究提供了宝贵的资源。
当前挑战
PIPE数据集在研究领域解决的挑战主要包括:一是如何通过大规模的图像对和详细指令,提升图像编辑模型的性能和泛化能力;二是构建过程中,如何确保图像对的质量和多样性,以及如何生成具有实际意义和可操作性的指令。具体而言,挑战体现在图像对的精确配对、指令的自然性与准确性,以及大规模数据集的存储与处理等方面。在数据集构建过程中,研究人员还需克服技术难题,例如使用深度学习模型进行图像修复和生成,同时保持数据集的一致性和可靠性。
常用场景
经典使用场景
在视觉研究领域,PIPE数据集以其独特的图像对和丰富的指令集,成为图像编辑任务中的一个重要资源。该数据集被广泛用于训练和评估无需遮罩、遵循指令的图像编辑模型,其经典使用场景在于为模型提供大量的图像编辑实例,以及对应的自然语言指令,从而提升模型对图像编辑任务的理解和执行能力。
解决学术问题
PIPE数据集解决了学术研究中如何有效训练图像编辑模型的问题,特别是在处理自然语言指令与图像内容对应关系上的挑战。通过提供带有具体编辑指令的图像对,该数据集使得研究者能够更好地理解和评估模型在遵循复杂指令方面的性能,推动了图像编辑技术的进步。
衍生相关工作
基于PIPE数据集,研究者们开展了一系列相关的工作,包括但不限于改进图像编辑模型的结构、提升指令理解能力、以及探索新的图像编辑方法。这些工作不仅进一步拓宽了PIPE数据集的应用范围,也推动了图像编辑领域的研究走向深入。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作