IE-Bench

Name: IE-Bench
Creator: 北京大学, 鹏城实验室
Published: 2025-01-17 10:47:25
License: 暂无描述

arXiv2025-01-17 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.09927v1

下载链接

链接失效反馈

官方服务：

资源简介：

IE-Bench是由北京大学和鹏城实验室联合创建的一个专门用于评估文本驱动图像编辑的数据集。该数据集包含3010条数据，涵盖了多样化的源图像、编辑提示和不同编辑方法的结果，并提供了25名人类受试者的平均意见分数（MOS）。数据集的创建过程包括源图像收集、编辑提示设计、多种编辑方法的应用以及主观评分实验。IE-Bench旨在解决文本驱动图像编辑任务中评估指标与人类感知不一致的问题，为图像编辑领域的研究提供了重要的基准和评估工具。

IE-Bench is a specialized dataset jointly created by Peking University and Peng Cheng Laboratory for evaluating text-driven image editing tasks. This dataset contains 3010 samples, covering diverse source images, editing prompts, and results produced by different editing methods, and provides the Mean Opinion Scores (MOS) averaged from 25 human subjects. The construction process of IE-Bench includes source image collection, editing prompt design, application of multiple editing methods, and subjective scoring experiments. IE-Bench aims to address the inconsistency between existing evaluation metrics and human perception in text-driven image editing tasks, providing an important benchmark and evaluation tool for research in the field of image editing.

提供机构：

北京大学, 鹏城实验室

创建时间：

2025-01-17

搜集汇总

数据集介绍

构建方式

IE-Bench数据集的构建采用了多阶段的精细设计。首先，从ADE、WIKIArt、COCO、ReasonEdit等多个数据集中手动挑选了301张源图像，涵盖真实世界场景、计算机生成图像、文本驱动生成图像和艺术创作等。其次，针对每张图像设计了风格、语义和结构三种类型的编辑提示，并使用五种不同的图像编辑技术生成了多样化的编辑结果。最后，邀请了25位来自不同背景的参与者对编辑图像进行了主观评分，评估内容包括文本-图像一致性、源-目标保真度和整体质量，评分标准符合ITU标准。

特点

IE-Bench数据集的特点在于其全面性和多样性。它不仅包含多样化的源图像，还涵盖了各种编辑提示和相应的编辑结果。此外，数据集还包含了由25位参与者提供的总计3,010个平均意见分数（MOS），这些分数反映了人类的主观评价。这使得IE-Bench成为首个专为文本驱动图像编辑任务设计的图像质量评估数据集和模型。

使用方法

使用IE-Bench数据集的方法包括以下步骤：首先，从IE-DB中获取源图像、编辑提示和编辑结果。其次，使用IE-QA模型对编辑图像进行评估，该模型考虑了图像-文本对齐、源-目标关系和视觉质量三个关键方面。最后，根据评估结果对图像编辑方法进行优化和改进。IE-Bench数据集和相关代码将向公众开放，以便于研究人员和开发人员进行进一步的研究和应用。

背景与挑战

背景概述

近年来，基于文本的图像编辑技术取得了显著进展，但准确评估这些编辑图像的任务仍然面临着重大挑战。与基于文本的图像生成评估不同，文本驱动的图像编辑具有同时基于文本和源图像的特点。编辑后的图像通常保留与原始图像固有的联系，这种联系随着文本语义的变化而动态变化。然而，之前的方法往往只关注文本-图像对齐或没有与人类感知对齐。在这项工作中，我们引入了文本驱动的图像编辑基准套件（IE-Bench），以增强对文本驱动的编辑图像的评估。IE-Bench包括一个数据库，其中包含各种源图像、各种编辑提示和由不同编辑方法生成的相应结果，以及由25名人类受试者提供的总计3,010个平均意见分数（MOS）。此外，我们引入了IE-QA，一种用于文本驱动的图像编辑的多模态源感知质量评估方法。据我们所知，IE-Bench提供了第一个专门为文本驱动的图像编辑定制的IQA数据集和模型。广泛的实验表明，与先前的方法相比，IE-QA在文本驱动的图像编辑任务上具有优越的主观对齐性。我们将使所有相关数据和代码公开。

当前挑战

文本驱动的图像编辑任务面临着一些挑战。首先，现有的评估指标往往只从单一角度评估图像质量，例如文本-图像一致性或编辑前后图像之间的相关性。这些指标没有提供整体评估，也没有与人类视觉感知很好地对齐。其次，构建一个能够动态地模拟源-目标关系的多模态方法是一个具有挑战性的任务。源和目标图像之间的关系随着文本上下文的变化而动态变化。例如，一个样式指令，如“使其成为粘土动画风格”，可能会极大地改变原始图像的结构、纹理和线条，而一个替换指令，如“将猫换成狗”，将直接改变语义内容，因此源和目标图像之间可能会存在很大的差异。另一方面，一个指令，如“去掉她的耳环”，预期会保留原始角色的大部分身份信息。因此，一个能够动态模拟源-目标关系的多模态方法迫切需要。此外，现有的数据集往往不包括与图像数据相对应的主观实验反馈（如平均意见分数MOS），因此在使用这些数据集时，其他人可能仍然需要依赖于客观指标或进行新的主观实验。最后，现有的评估指标往往只关注单个图像和文本，这与图像编辑任务的设置不同。文本驱动的图像编辑还以源图像作为输入。编辑结果预期会与源图像不同，但也存在一定的对应关系。建模这种关系对于评估编辑结果至关重要：在某些情况下，编辑结果预期会保留与原始图像相关的语义信息。如果只考虑编辑图像的输出，这一点就会被忽略。这是一个先前方法尚未深入解决的问题。然而，建模这种关系是一项具有挑战性的任务。源和目标图像之间的联系随着文本上下文的变化而动态变化。因此，我们需要一个能够动态模拟源-目标关系的多模态方法。

常用场景

经典使用场景

IE-Bench数据集作为文本驱动图像编辑评估的基准，其经典使用场景在于为研究人员提供了一个包含多样源图像、各种编辑提示和相应结果的数据库。这些数据由25位人类受试者提供了共计3,010个平均意见分数（MOS），用于评估编辑后的图像。IE-Bench的数据集和IE-QA评估方法，旨在提高评估指标与人类感知之间的对齐，为文本驱动图像编辑任务提供了一个全面的主观感知评价。

实际应用

IE-Bench数据集在实际应用中具有重要的价值。它可以帮助研究人员和开发人员评估和改进文本驱动图像编辑模型，确保模型输出符合人类主观感知。此外，IE-Bench的评估方法可以为图像编辑软件和应用程序提供客观的评价标准，帮助用户选择最适合他们需求的编辑模型。

衍生相关工作

IE-Bench数据集和IE-QA评估方法的出现，激发了相关研究领域的进一步发展。基于IE-Bench，研究人员可以开展更多关于文本驱动图像编辑评估的研究，探索更有效的评估方法和模型。同时，IE-Bench的评估方法也可以应用于其他领域的图像质量评估，如自然图像、艺术作品等，推动图像质量评估技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集