SpotEdit

github2025-08-26 更新2025-08-29 收录

下载链接：

https://github.com/SaraGhazanfari/SpotEdit

下载链接

链接失效反馈

官方服务：

资源简介：

SpotEdit是一个用于评估最先进开源和闭源模型的视觉引导图像编辑能力的基准数据集。该基准数据集由真实和合成的视频帧构建，捕捉相同对象在姿态、方向和尺度上的变化。每个基准样本包含参考图像、输入图像、指令和接近真实值的编辑图像。此外，SpotEdit还包括专门用于评估幻觉的部分，其中参考图像或输入图像不包含指令中指定的对象。

SpotEdit is a benchmark dataset for evaluating the visual-guided image editing capabilities of state-of-the-art open-source and closed-source models. This benchmark is constructed from real and synthetic video frames, capturing variations of the same object in terms of pose, orientation, and scale. Each benchmark sample includes a reference image, an input image, an instruction, and a near-ground-truth edited image. Additionally, SpotEdit includes sections specifically designed to evaluate hallucinations, where the reference image or input image does not contain the object specified in the instruction.

创建时间：

2025-08-06

原始信息汇总

SpotEdit 数据集概述

数据集简介

SpotEdit 是一个用于评估最先进的开源和闭源模型在视觉引导图像编辑能力方面的基准数据集。该数据集通过自动化的数据生成流程构建，包含来自真实和合成视频帧的样本，捕捉了同一对象在姿态、方向和尺度上的变化。

数据集构成

每个基准样本包含以下四个组成部分：

参考图像
输入图像
编辑指令
近乎真实的编辑后图像

特色内容

数据集专门设置了一个评估幻觉现象的板块，其中参考图像或输入图像不包含指令中指定的对象。定性分析表明，当前模型在编辑过程中经常引入幻觉现象。

技术基础

该工作基于以下代码和模型构建：

InternVL：https://github.com/OpenGVLab/InternVL
Emu2：https://github.com/dmsc/emu2
OmniGen：https://github.com/VectorSpaceLab/OmniGen
UNO：https://github.com/bytedance/UNO
BAGEL：https://github.com/ByteDance-Seed/Bagel
OmniGen2：https://github.com/VectorSpaceLab/OmniGen2

引用信息

如需使用本数据集或相关模型，请引用以下文献：

@misc{ghazanfari2025spoteditevaluatingvisuallyguidedimage, title={SpotEdit: Evaluating Visually-Guided Image Editing Methods}, author={Sara Ghazanfari and Wei-An Lin and Haitong Tian and Ersin Yumer}, year={2025}, eprint={2508.18159}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.18159}, }

搜集汇总

数据集介绍

构建方式

在视觉引导图像编辑领域，SpotEdit基准数据集通过自动化流程构建，融合真实与合成视频帧以捕捉物体在姿态、方向和尺度上的多样性变化。其生成管道系统性地整合了参考图像、输入图像、文本指令及近乎真实的编辑后图像，形成标准化样本结构，同时专门设立幻觉评估模块以检验模型在对象缺失情境下的编辑可靠性。

使用方法

研究者可通过Hugging Face平台直接加载数据集，按照标准协议将样本拆分为参考图像、输入图像和指令文本输入至编辑模型。输出结果与近真实编辑图像进行定量对比，重点关注视觉一致性与指令遵循度。幻觉评估模块需单独测试模型在参考或输入图像缺失目标对象时的表现，具体指标参照配套论文中的量化分析方法。

背景与挑战

背景概述

视觉引导图像编辑作为计算机视觉领域的重要研究方向，旨在通过自然语言指令和参考图像实现对目标图像的精准修改。SpotEdit数据集由Sara Ghazanfari等研究人员于2025年提出，依托卡内基梅隆大学等机构的技术支持，专注于评估开源与闭源模型在视觉引导编辑任务中的性能表现。该数据集通过融合真实与合成视频帧数据，构建了包含参考图像、输入图像、文本指令及近真实编辑结果的标准化样本，为多模态图像处理研究提供了重要的基准平台，推动了生成式模型在视觉内容创作领域的发展。

当前挑战

视觉引导图像编辑面临的核心挑战在于模型对多模态信息的对齐与推理能力，需同时理解文本指令的语义意图和参考图像的视觉特征，并精准迁移至目标图像。SpotEdit构建过程中需克服数据采集的复杂性，通过自动化流水线协调不同姿态、朝向和尺度的物体表征，确保样本的多样性和一致性。特别针对幻觉现象设计了专项评估模块，揭示了现有模型在对象缺失场景下容易产生虚假内容的技术瓶颈，为改进模型鲁棒性提供了关键洞察。

常用场景

经典使用场景

在计算机视觉领域，SpotEdit数据集为视觉引导图像编辑任务提供了标准化评估框架。该数据集通过真实与合成视频帧构建样本，涵盖物体姿态、方向和尺度的多维变化，研究者可借助其自动化生成流程获得包含参考图像、输入图像、编辑指令及近真实编辑结果的完整样本，从而系统化测试模型在保持视觉一致性方面的性能。

解决学术问题

SpotEdit有效解决了视觉引导编辑中模型幻觉现象的量化评估难题。传统方法缺乏针对参考图像与输入图像对象缺失场景的专项测试，该数据集通过设计幻觉评估模块，揭示了现有模型在对象不存在时产生虚假内容的普遍问题，为提升模型鲁棒性和输出可靠性提供了关键数据支撑，推动了可信图像生成技术的发展。

实际应用

该数据集的实际价值体现在智能摄影后期处理与影视特效制作领域。通过提供精准的视觉编辑基准，能够优化商业修图软件的对象替换功能，辅助影视工业中虚拟物体与实拍场景的融合效果评估。其合成的多视角样本还可用于训练增强现实系统，提升虚拟物体在真实环境中的视觉一致性表现。

数据集最近研究