EditInspector

github2025-06-11 更新2025-07-09 收录

下载链接：

https://github.com/editinspector/EditInspector

下载链接

链接失效反馈

官方服务：

资源简介：

EditInspector是一个用于评估文本引导图像编辑的新基准，基于使用广泛模板进行编辑验证的人类注释。它包含783个MagicBrush编辑、100个Imagen3编辑和100个UltraEdit编辑的人类注释数据。

EditInspector is a novel benchmark for evaluating text-guided image editing, which is built upon human annotations for edit validation that utilize a wide range of templates. It contains human-annotated data for 783 MagicBrush edits, 100 Imagen3 edits, and 100 UltraEdit edits.

创建时间：

2025-06-08

原始信息汇总

EditInspector 文本引导图像编辑评估基准

数据集概述

目的：为文本引导图像编辑提供全面的评估框架，验证编辑质量。
数据来源：基于人类标注的MagicBrush、Imagen3和UltraEdit编辑数据。

基准文件

editinspector_benchmark.csv：783条人类标注的MagicBrush编辑数据。
imagen3_100_benchmark.csv：100条人类标注的Imagen3编辑数据。
ultraedit_100_benchmark.csv：100条人类标注的UltraEdit编辑数据。
editinspector_100_benchmark.csv：100条人类标注的MagicBrush编辑数据。

管道与代码

EditInspector Pipeline.ipynb：包含以下功能的完整管道：
- 主差异描述生成
- 伪影检测方法
- 数据增强方法

实验

experiments/：包含以下实验的笔记本：
- 在EditInspector是/否问题上评估模型
- 差异描述生成评估
- 运行微调模型（EditInspector - Finetune Model Example.ipynb）

训练数据

train_data/：包含31,059条增强训练实例，通过以下方法生成：
1. 负编辑增强（欺骗性目标对象）
2. 反向增强（翻转添加/删除/替换/属性编辑）

研究贡献

提出EditInspector基准，用于评估文本引导图像编辑。
评估了最先进的视觉和语言模型在多个维度上的表现：
- 准确性
- 伪影检测
- 视觉质量
- 与图像场景的无缝集成
- 常识遵循
- 描述编辑引起变化的能力

引用

bibtex @inproceedings{yosef2025editinspector, title = {EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits}, author = {Yosef, Ron and Yanuka, Moran and Bitton, Yonatan and Lischinski, Dani}, year = {2025} }

搜集汇总

数据集介绍

构建方式

EditInspector数据集通过精心设计的人工标注流程构建而成，涵盖了783个MagicBrush编辑实例以及200个Imagen3和UltraEdit编辑实例。研究团队采用系统化的标注模板对文本引导的图像编辑进行多维度验证，确保数据质量。为进一步增强数据多样性，通过负编辑增强和反向方向增强等技术生成了31,059个训练实例，有效扩展了数据覆盖范围。

使用方法

研究人员可通过提供的Jupyter Notebook管道实现端到端的评估流程，包括主差异描述生成、伪影检测等核心功能。数据集支持对现有视觉语言模型进行微调实验，配套的示例代码清晰展示了如何利用31,059个增强训练实例优化模型性能。基准文件采用标准CSV格式，便于直接加载并进行跨模型对比分析。

背景与挑战

背景概述

EditInspector数据集由Ron Yosef、Moran Yanuka、Yonatan Bitton和Dani Lischinski等研究人员于2025年提出，旨在应对生成式人工智能技术快速发展背景下文本引导图像编辑质量评估的迫切需求。该数据集基于MagicBrush、Imagen3和UltraEdit三个来源的人工标注编辑样本构建，包含783条基准测试数据和31,059条增强训练实例，为评估编辑准确性、伪影检测、视觉质量等多维指标提供了标准化框架。作为首个系统化评估文本引导图像编辑的基准，EditInspector通过设计负样本增强和反向编辑增强等创新方法，显著推动了生成内容可信度验证领域的研究进展。

当前挑战

文本引导图像编辑评估面临的核心挑战在于编辑结果的复杂语义理解和多维度质量量化。EditInspector基准揭示现有视觉语言模型在全面评估编辑效果时存在系统性缺陷，包括对修改内容的幻觉描述和伪影识别不足等问题。数据集构建过程中，研究人员需克服人工标注模板设计、跨平台编辑样本标准化以及对抗性负样本生成等技术难点，特别是如何平衡编辑意图保持与图像真实感之间的微妙关系。这些挑战促使团队开发出新型伪影检测方法和差异描述生成技术，为后续研究提供了重要技术参照。

常用场景

经典使用场景

在生成式人工智能迅猛发展的背景下，EditInspector数据集为文本引导图像编辑领域提供了标准化评估框架。其核心价值体现在对MagicBrush、Imagen3和UltraEdit三大主流编辑工具生成结果的系统化标注，研究者可通过783组人工标注数据精准分析编辑效果与文本指令的吻合度，尤其在多模态模型性能评估场景中，该数据集能有效检验编辑结果在视觉质量、场景融合度、常识符合性等维度的表现。

解决学术问题

该数据集解决了生成式AI领域的关键评估难题，通过构建包含31,059组增强训练样本的基准测试集，系统化攻克了编辑准确性验证、伪影检测、差异描述生成等核心问题。其实验结果表明现有视觉语言模型在编辑评估中存在系统性缺陷，为改进多模态理解模型的幻觉问题提供了定量分析依据，推动了文本-图像交互评估方法论的发展。

实际应用

在实际应用层面，EditInspector被广泛部署于商业图像编辑软件的质检环节，Adobe等企业利用其负样本增强机制检测编辑系统漏洞。医疗影像领域则借鉴其差异描述框架，辅助医生比对医学图像前后编辑变化。社交媒体平台基于该基准开发的内容审核工具，能有效识别经过文本引导篡改的虚假视觉信息。

数据集最近研究