Grounded Image Editing Request (GIER) dataset

Name: Grounded Image Editing Request (GIER) dataset
Creator: 罗切斯特大学 Adobe研究院
Published: 2020-10-06 04:51:16
License: 暂无描述

arXiv2020-10-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2010.02330v1

下载链接

链接失效反馈

官方服务：

资源简介：

Grounded Image Editing Request (GIER)数据集是一个大规模的语言驱动图像编辑数据集，由罗切斯特大学和Adobe研究院共同创建。该数据集包含6179对独特的图像，每对图像都标注了五种语言请求、所有可能的编辑操作及其掩码。数据集中的图像和请求均来自真实的用户编辑需求，涵盖了多样化的编辑操作。创建过程中，研究人员从图像编辑请求网站爬取数据，并通过专家和众包平台进行数据增强和标注质量控制。GIER数据集旨在推动语言驱动图像编辑技术的发展，解决图像编辑中的自动化和可解释性问题，使图像编辑更加易于普通用户使用。

Grounded Image Editing Request (GIER) dataset is a large-scale language-driven image editing dataset co-created by the University of Rochester and Adobe Research. This dataset contains 6,179 unique image pairs, each annotated with five language requests, all possible editing operations and their corresponding masks. Both the images and requests in the dataset originate from real user editing needs, covering a diverse range of editing operations. During the dataset creation process, researchers crawled data from image editing request websites, and conducted data augmentation and annotation quality control via expert and crowdsourcing platforms. The GIER dataset aims to promote the development of language-driven image editing technologies, address the challenges of automation and interpretability in image editing, and make image editing more accessible to ordinary users.

提供机构：

罗切斯特大学 Adobe研究院

创建时间：

2020-10-06

搜集汇总

数据集介绍

构建方式

GIER数据集的构建始于从Zhopped和Reddit等图像编辑请求网站爬取真实用户数据，涵盖38k图像对。随后，通过预训练的UPSNet全景分割模型对图像进行预处理，并雇佣Photoshop专家筛选出可被现有模型有效定位的编辑区域样本。在过滤阶段，标注人员为每个合格样本标注所有可能的编辑操作及其对应的掩码。语言请求的收集则采用双轨策略：一方面通过Amazon Mechanical Turk招募非专业标注者，仅提供原始与编辑后的图像对；另一方面通过Upwork雇佣Photoshop专家，额外提供原始请求和操作标注信息。最终，每对图像获得五条语言请求，确保数据多样性与专业性。

特点

该数据集的核心特点在于其真实性与全面性。所有图像均源自真实用户的编辑需求，涵盖23种编辑操作，包括全局调整（如亮度、对比度）和局部操作（如对象移除、背景替换），其中局部操作占比因操作类型而异。每对图像平均包含3.21个操作，并配有高质量掩码标注。语言请求的词汇量达2275，平均词长8.61，体现了从专业到业余的多层次描述风格。此外，数据集支持细粒度的操作类型分类与区域定位，为语言驱动图像编辑任务提供了首个大规模、多标注的基准。

使用方法

使用GIER数据集时，研究者可将其划分为训练集、验证集和测试集（比例8:1:1）。模型需接收原始图像与自然语言请求，输出编辑后的图像。数据集提供了操作标签、掩码及目标图像作为监督信号，支持多任务学习：操作预测可训练多标签分类器，区域定位可基于操作条件化注意力机制进行掩码预测，而参数优化则可通过模块化网络实现。评估指标涵盖F1分数、IoU、ROC-AUC及L1距离，并建议结合人工评分以全面衡量编辑质量。

背景与挑战

背景概述

语言驱动的图像编辑任务旨在通过自然语言指令简化复杂的图像处理流程，使非专业用户也能轻松完成编辑操作。然而，现有研究多局限于特定图像领域或仅支持全局调整，缺乏对开放域图像中局部与全局编辑的统一处理。为此，来自罗彻斯特大学与Adobe Research的研究团队于2020年提出了Grounded Image Editing Request (GIER)数据集。该数据集包含6179组真实用户图像对，每对图像配有五条多样化语言指令及编辑操作与掩码标注，覆盖23种编辑操作。GIER的构建填补了语言驱动图像编辑领域大规模、高质量基准数据的空白，为后续研究提供了重要支撑，推动了该领域向更通用、更自由的编辑形式发展。

当前挑战

GIER数据集面临多重挑战。首先，语言驱动图像编辑需同时处理详细指令与模糊描述，且需支持局部与全局操作，这对模型理解复杂语义与视觉上下文的能力提出极高要求。其次，数据构建过程中，从众包网站爬取的原始样本存在编辑区域难以被现有分割模型定位、或涉及新增物体等复杂情况，需通过人工筛选与专业标注确保质量。此外，语言请求的多样性（来自业余用户与专家）增加了标注一致性难度，而操作类型的稀疏分布（如部分操作出现不足百次）进一步加剧了模型训练的挑战。这些难题共同构成了GIER数据集的核心研究瓶颈。

常用场景

经典使用场景

在自然语言驱动的图像编辑领域，GIER数据集被广泛用作基准测试平台，用于评估模型在理解复杂语言指令并执行局部与全局编辑操作方面的能力。该数据集包含来自真实用户的图像编辑请求，覆盖了从简单的亮度调整到复杂的物体移除等多样化操作，为研究者提供了一个包含操作类型、编辑掩码和语言标注的丰富三元组集合。经典用法包括训练和测试端到端的语言到图像编辑系统，以及验证模块化网络在预测操作序列和参数时的鲁棒性。

解决学术问题

GIER数据集解决了语言驱动图像编辑中缺乏真实用户场景和细粒度标注的学术瓶颈。此前研究多局限于单一领域或全局修饰，而该数据集通过提供操作级和掩码级标注，使得模型能够学习区分局部与全局编辑、理解模糊请求，并处理多操作组合。其意义在于推动了图像编辑从特定任务向通用、自由形式编辑的跨越，为可解释性编辑系统的发展奠定了数据基础，并促进了视觉语言理解与图像处理领域的交叉融合。

衍生相关工作

基于GIER数据集，衍生出了一系列经典工作：包括操作条件式视觉定位模型（如扩展MattNet以处理多区域定位）、可解释的操作模块化网络（如OMN），以及结合语言与视觉特征的多标签操作预测方法。此外，该数据集还启发了后续研究在弱监督编辑、交互式编辑序列生成和编辑结果评估指标上的探索，推动了语言驱动图像编辑从基准方法向更高效、更鲁棒的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集