osunlp/MagicBrush

Hugging Face2023-11-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/osunlp/MagicBrush

下载链接

链接失效反馈

资源简介：

MagicBrush是第一个大规模、手动标注的指令引导图像编辑数据集，涵盖了单轮、多轮、提供掩码和不提供掩码的多样化编辑场景。该数据集包含10K个（源图像、指令、目标图像）三元组，足以训练大规模的图像编辑模型。数据集的结构包括图像ID、编辑轮次、源图像、掩码图像、编辑指令和目标图像等字段。数据集分为训练集和开发集，测试集的信息需要从代码库中获取。

MagicBrush is the first large-scale, manually annotated instruction-guided image editing dataset, covering diverse editing scenarios including single-turn, multi-turn, mask-provided and mask-free settings. This dataset contains 10K (source image, instruction, target image) triplets, which is sufficient for training large-scale image editing models. The dataset structure includes fields such as image ID, editing turn, source image, masked image, editing instruction and target image. The dataset is split into training set and development set, while the information of the test set needs to be obtained from the code repository.

提供机构：

osunlp

原始信息汇总

数据集概述

数据集名称

MagicBrush

数据集概要

MagicBrush 是一个大规模的手动标注指令引导图像编辑数据集，涵盖单轮、多轮、提供掩码和无掩码编辑的多样化场景。该数据集包含 10K (源图像、指令、目标图像) 三元组，足以训练大规模图像编辑模型。

数据集结构

img_id (字符串): 来自 COCO 的 ID，字符串类型，便于测试集加载。
turn_index (整数): 图像编辑的轮次。
source_img (图像): 输入图像，可以是原始真实图像（turn_index=1）或上一轮编辑的图像（turn_index >=2）。
mask_img (图像): 自由形式的掩码图像（白色区域），在提供掩码设置中用于限制编辑区域。
instruction (字符串): 输入图像应如何更改的编辑指令。
target_img (图像): 对应于输入图像和指令的编辑图像。

数据集分割

训练集 (train): 包含 8,807 次编辑轮次（4,512 次编辑会话）。
开发集 (dev): 包含 528 次编辑轮次（266 次编辑会话）。

许可信息

本作品根据 Creative Commons Attribution 4.0 International License 获得许可。

AI搜集汇总

数据集介绍

构建方式

MagicBrush数据集的构建，采取大规模手工标注的方式，涵盖了单一轮次、多轮次、提供遮罩和无遮罩编辑等多种场景。该数据集由10K个（源图像、编辑指令、目标图像）三元组组成，足以支持大规模图像编辑模型的训练。

特点

MagicBrush数据集的特点在于其多样性、细粒度的编辑指令，以及手工标注的高质量数据。它不仅包含了丰富的图像编辑场景，还提供了精确的编辑指令，为图像编辑任务提供了强大的数据支持。此外，数据集采用了Creative Commons Attribution 4.0国际许可，保证了数据的开放性与可用性。

使用方法

用户可以通过数据集提供的训练集和开发集来训练和验证图像编辑模型。数据集的结构包括图像ID、轮次索引、源图像、遮罩图像、编辑指令和目标图像等字段，便于模型对图像编辑任务的理解和执行。获取测试集需要通过数据集存储库进行，以确保数据不发生潜在的泄露。

背景与挑战

背景概述

MagicBrush数据集，由俄亥俄州立大学自然语言处理小组（OSU-NLP-Group）创建，并在2023年通过论文《MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing》对外发布。该数据集旨在解决指令引导下图像编辑的问题，包含了多样化的单次编辑、多次编辑、提供遮罩和不提供遮罩的场景。其规模达到10K的（源图像、指令、目标图像）三元组，为训练大规模图像编辑模型提供了充足的数据基础。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1) 如何准确捕捉并表达用户编辑意图的多样性；2) 如何确保数据集能够覆盖各种图像编辑场景，从而提高模型的泛化能力；3) 在数据标注过程中，如何保证标注质量的一致性和准确性。同时，在研究领域中，如何利用该数据集开发出能够精确理解和执行复杂编辑指令的图像编辑模型，是一个有待克服的技术挑战。

常用场景

经典使用场景

在图像处理与编辑领域，MagicBrush数据集提供了一个全面的研究平台。该数据集以指令引导的图像编辑为核心，包含源图像、编辑指令及目标图像的三元组，广泛应用于单轮和多轮编辑任务。其经典使用场景在于训练图像编辑模型，通过对编辑指令的理解与执行，生成符合预期的目标图像。

解决学术问题

MagicBrush数据集解决了图像编辑领域中如何实现细粒度、高质量编辑的难题，为研究指令引导下图像编辑的算法提供了丰富的标注数据。它的出现对于提升图像编辑模型的泛化能力和准确性具有重大意义，推动了相关领域的研究进展。

衍生相关工作

基于MagicBrush数据集，学术界涌现了众多相关研究工作。学者们通过该数据集不仅探索了更高效的图像编辑算法，还拓展了指令引导编辑在视频、3D模型等领域的应用，推动了计算机视觉和机器学习领域的交叉融合。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集