EDITVAL

Name: EDITVAL
Creator: 马里兰大学
Published: 2023-10-04 04:46:10
License: 暂无描述

arXiv2023-10-04 更新2024-06-21 收录

下载链接：

https://deep-ml-research.github.io/editval/

下载链接

链接失效反馈

官方服务：

资源简介：

EDITVAL是一个标准化的基准数据集，用于评估基于文本指导的图像编辑方法。该数据集由马里兰大学创建，包含648个独特的图像编辑操作，涵盖19个来自MS-COCO的类别，旨在解决图像编辑中的多样性和复杂性问题。数据集的创建过程涉及精心挑选的测试图像和手动定义的可编辑属性，以及两种标准化的评估流程：自动化评估和大规模人类研究。EDITVAL的应用领域包括设计、制造和工程，以及机器学习研究，如模型解释性和模型在分布外鲁棒性的改进。

EDITVAL is a standardized benchmark dataset for evaluating text-guided image editing methods. Developed by the University of Maryland, this dataset contains 648 unique image editing operations spanning 19 categories from MS-COCO, and is designed to address the diversity and complexity challenges in image editing. The creation of the dataset involves carefully selected test images and manually defined editable attributes, as well as two standardized evaluation pipelines: automated evaluation and large-scale human studies. The application scenarios of EDITVAL include design, manufacturing, engineering, and machine learning research such as model interpretability and improving the out-of-distribution robustness of models.

提供机构：

马里兰大学

创建时间：

2023-10-04

搜集汇总

数据集介绍

构建方式

在文本引导图像编辑领域，评估方法的标准化需求日益凸显。EDITVAL的构建过程体现了严谨的科学设计，其核心数据集源自MS-COCO，通过精心筛选出19个对象类别，并从中选取92张图像作为基础。编辑类型的定义涵盖13种细粒度操作，如对象添加、位置替换等，每种编辑类型均通过ChatGPT生成符合现实场景的编辑操作，再经人工验证确保合理性。最终形成包含648个独特编辑操作的数据集，以结构化JSON格式组织，支持灵活扩展新的编辑类型与操作。

特点

EDITVAL作为评估基准，展现出多维度特性。其编辑类型覆盖广泛，从简单的对象颜色修改到复杂的空间位置调整，全面检验模型在不同场景下的编辑能力。数据集设计注重现实可行性，每个编辑操作均经过人工验证，确保评估任务的实际意义。评估体系兼具自动化与人工双重管道，自动化部分利用OwL-ViT等视觉语言模型进行对象级检测，人工评估则通过标准化模板收集细粒度反馈。这种设计使EDITVAL能同时量化编辑准确性与原始属性保留度，为方法比较提供立体视角。

使用方法

使用EDITVAL进行评估遵循系统化流程。研究人员首先加载数据集中的图像与对应编辑操作，通过标准化模板生成文本提示输入待测编辑模型。生成的编辑图像将同时送入自动化评估管道与人工评估模板：自动化管道利用预训练视觉模型检测对象存在性、空间关系等指标，输出二进制评分；人工评估则通过亚马逊众包平台，让标注者从编辑质量、对象属性保留度、图像上下文保留度三个维度进行评分。两种评估结果可相互验证，且整个流程支持新方法的快速集成，为领域提供可重复的评估框架。

背景与挑战

背景概述

随着大规模扩散模型在文本引导图像生成领域取得突破性进展，文本引导图像编辑技术逐渐成为计算机视觉研究的热点。然而，该领域长期缺乏标准化的评估基准，导致不同方法在多样化编辑任务上的性能难以公平比较。为此，马里兰大学、微软研究院与Meta AI的研究团队于2023年联合推出了EDITVAL基准数据集。该数据集基于MS-COCO图像库精心构建，涵盖19个物体类别与13种编辑类型，旨在通过自动化评估流程与大规模人工研究模板，系统量化文本引导图像编辑方法在细粒度编辑任务上的表现。EDITVAL的创立填补了该领域标准化评估的空白，为后续方法的发展与比较提供了可靠依据。

当前挑战

EDITVAL致力于解决文本引导图像编辑领域的评估挑战，其核心问题在于如何准确衡量生成图像对文本指令的遵循程度。具体挑战包括：一是在多样化编辑类型（如物体添加、背景替换、空间位置调整等）上建立统一且可靠的评估指标；二是在构建过程中，需克服自动化评估工具（如CLIP）在空间关系理解上的局限性，为此引入了OwL-ViT等视觉语言模型以提升评估精度。此外，数据集的构建需确保编辑操作的现实合理性，通过结合ChatGPT生成与人工验证的方式，平衡自动化效率与编辑指令的语义准确性。

常用场景

经典使用场景

在文本引导图像编辑领域，EDITVAL作为标准化评估基准，其经典使用场景在于系统性地量化扩散模型在多样化编辑任务中的性能表现。该数据集通过精心构建的648个独特编辑操作，覆盖了从对象增删、属性调整到空间变换等13种编辑类型，为研究者提供了统一的测试平台，以客观比较不同方法在细粒度编辑任务上的优劣。

解决学术问题

EDITVAL有效解决了文本引导图像编辑领域缺乏标准化评估协议的学术难题。传统上，该领域依赖CLIP分数等指标，难以精确衡量空间编辑或复杂属性变换的忠实度。该数据集通过结合自动化评估流程与大规模人工研究，提供了可扩展且可靠的量化框架，揭示了现有方法在空间操作等方面的普遍缺陷，推动了更稳健编辑工具的开发。

衍生相关工作

EDITVAL的推出催生了一系列围绕文本引导图像编辑评估的衍生研究。其标准化协议启发了后续基准的构建，促进了针对空间编辑、多属性协同变换等难点的方法创新。同时，数据集提供的自动化评估流程与人工研究模板，成为后续工作验证模型性能的重要参考，推动了该领域向更系统化、可复现的研究范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集