EditInspector

Name: EditInspector
Creator: 耶路撒冷希伯来大学、特拉维夫大学、谷歌研究
Published: 2025-06-12 01:58:25
License: 暂无描述

arXiv2025-06-12 更新2025-06-13 收录

下载链接：

https://editinspector.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

EditInspector数据集由耶路撒冷希伯来大学、特拉维夫大学和谷歌研究共同创建，旨在为文本引导的图像编辑提供一个全面的评估框架。该数据集包含783个编辑示例，这些示例是通过众包方式收集的人类注释，用于评估编辑的多个维度，包括准确性、伪影检测、视觉质量、场景一致性和描述编辑变化的能力。数据集还包括了用于训练和评估模型的各种编辑任务，如生成差异描述和伪影检测。EditInspector数据集的发布为研究文本引导的图像编辑提供了宝贵的资源，有助于推动该领域的发展。

The EditInspector dataset was co-created by the Hebrew University of Jerusalem, Tel Aviv University, and Google Research, aiming to provide a comprehensive evaluation framework for text-guided image editing. This dataset contains 783 editing examples, which are human annotations collected via crowdsourcing, used to evaluate multiple dimensions of editing, including accuracy, artifact detection, visual quality, scene consistency, and the ability to describe editing changes. The dataset also includes various editing tasks for model training and evaluation, such as generating difference descriptions and artifact detection. The release of the EditInspector dataset provides a valuable resource for research on text-guided image editing, helping to advance the development of this field.

提供机构：

耶路撒冷希伯来大学、特拉维夫大学、谷歌研究

创建时间：

2025-06-12

原始信息汇总

EditInspector: 文本引导图像编辑评估基准

数据集概述

名称：EditInspector
作者：Ron Yosef, Moran Yanuka, Yonatan Bitton, Dani Lischinski
机构：耶路撒冷希伯来大学、特拉维夫大学、Google Research
会议：ACL 2025
论文链接：https://arxiv.org/abs/2506.09988

研究背景

文本引导图像编辑在生成式AI推动下日益普及，需要全面框架验证编辑质量。
现有模型在评估编辑时存在不足，经常产生幻觉描述。

基准特点

基于人工标注的编辑验证模板构建。
评估维度包括：
- 编辑准确性
- 伪影检测
- 视觉质量
- 与场景的无缝融合
- 常识符合度
- 编辑变化描述能力

评估指标

模型精确度(MP)：
- 人工标注差异与模型检测差异的匹配百分比
幻觉率(HR)：
- 模型检测差异中未对应任何人工标注差异的百分比

主要发现

人类标注者平均每个编辑识别6个差异。
GPT-4o在编辑检查问题上表现最佳。
Qwen2.5-VL在差异预测中精度最高，幻觉率最低。

创新方法

差异描述生成：
- 采用三级缩放图像处理流程
- 结合Gemini生成元数据
伪影检测：
- 方法一：比较分割概率变化
- 方法二：识别消失元素

引用格式

bibtex @misc{yosef2025editinspectorbenchmarkevaluationtextguided, title={EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits}, author={Ron Yosef and Moran Yanuka and Yonatan Bitton and Dani Lischinski}, year={2025}, eprint={2506.09988}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.09988}, }

搜集汇总

数据集介绍

构建方式

EditInspector数据集的构建基于MagicBrush数据集，通过众包方式收集了783个文本引导的图像编辑样本的人类标注。标注过程采用了精心设计的评估框架，涵盖编辑准确性、技术精度、视觉一致性、伪影检测和差异描述五个维度。每个编辑由三名经过资格测试的标注者独立评估，确保了数据的可靠性和一致性。数据采集过程中还采用了决策树引导和用户界面优化等措施，以提高标注质量。

特点

EditInspector数据集具有多维度的评估体系，能够全面检测文本引导图像编辑中的各类问题。其独特之处在于不仅评估编辑是否准确执行指令，还关注技术质量、场景一致性等常被忽视的方面。数据集包含35.8%的添加编辑、21.6%的属性修改、7.3%的移除编辑和31.3%的替换编辑，反映了真实编辑场景的多样性。人类标注者间的一致性达到80-86%，远高于随机概率，确保了数据的可靠性。

使用方法

EditInspector数据集主要用于评估视觉语言模型在图像编辑质量评估任务中的表现。使用时，研究者可以将模型输出与数据集中的人类标注进行对比，评估模型在编辑准确性判断、伪影检测、差异描述等任务上的性能。数据集支持多种评估指标，包括传统的二元分类准确率以及专门设计的模型精确度(MP)和幻觉率(HR)等。此外，数据集还可用于训练专门的编辑评估模型，如论文中提出的基于LLaVA的微调模型。

背景与挑战

背景概述

EditInspector是由耶路撒冷希伯来大学、特拉维夫大学和谷歌研究院的研究团队于2025年推出的文本引导图像编辑评估基准数据集。该数据集基于人类标注的大规模编辑验证模板构建，旨在解决生成式AI时代文本引导图像编辑的质量评估难题。数据集包含783个来自MagicBrush测试集的编辑样本，从编辑准确性、伪影检测、视觉质量、场景融合度、常识一致性及差异描述能力五个维度建立评估体系。作为首个系统性评估图像编辑质量的基准，EditInspector填补了传统评估方法在语义一致性和细节把控方面的空白，为计算机视觉与多模态研究提供了重要工具。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，现有视觉语言模型在评估文本引导编辑时存在系统性缺陷，包括对不准确编辑的误判率高达70%、伪影分类准确率仅65.7%，且在差异描述任务中平均仅能识别12%的真实差异；在构建层面，需解决标注一致性问题（技术精确度标注仅41%完全一致），并设计新型评估指标以克服传统N-gram度量对编辑动作顺序不敏感的局限。此外，数据增强时需平衡负样本生成与真实编辑分布的偏差，而多轮编辑评估框架的缺失也制约了复杂编辑场景的覆盖。

常用场景

经典使用场景

EditInspector数据集在文本引导的图像编辑领域具有广泛的应用，尤其在评估生成式AI模型对图像编辑的准确性、视觉质量和场景一致性方面表现突出。该数据集通过多维度标注，包括编辑准确性、伪影检测、技术质量和差异描述等，为研究者提供了一个全面的评估框架。其经典使用场景包括对现有最先进的视觉语言模型（VLMs）在编辑评估任务中的性能测试，以及为新型编辑评估方法的开发提供基准。

衍生相关工作

基于EditInspector数据集，研究者们已开展多项衍生工作。其中包括开发新型的零样本差异描述生成流程，该流程在主要差异描述任务中比现有最优模型准确率提升36%；以及创新的伪影检测方法，通过分析编辑区域的对象分割概率实现64%的检测准确率。这些工作不仅推进了编辑评估技术的发展，也为端到端微调模型的开发提供了重要参考。

数据集最近研究