CompBench

Name: CompBench
Creator: 华东师范大学
Published: 2025-05-18 10:30:52
License: 暂无描述

arXiv2025-05-18 更新2025-05-21 收录

下载链接：

http://arxiv.org/abs/2505.12200v1

下载链接

链接失效反馈

官方服务：

资源简介：

CompBench是一个大规模的基准数据集，专门为复杂指令引导的图像编辑任务而设计。该数据集包含了3,000多个图像-指令对，涵盖了九种不同的图像编辑任务类别，如对象添加、对象删除、对象替换、多对象编辑、多轮编辑、隐式推理、动作编辑、位置编辑和视角编辑。数据集的内容源自真实世界场景，具有高度复杂性和多样性，能够全面评估图像编辑模型在精确操作能力方面的表现。数据集的创建采用了多轮专家审查，确保了编辑质量，并使用了一种指令解耦策略，将编辑意图分解为四个关键维度：位置、外观、动态和对象，以确保指令与复杂编辑需求之间的紧密对齐。CompBench旨在解决现有图像编辑模型在评估复杂场景理解和细微操作能力方面的局限性，并为下一代指令引导的图像编辑系统的开发提供关键见解。

CompBench is a large-scale benchmark dataset specifically designed for complex instruction-guided image editing tasks. This dataset contains over 3,000 image-instruction pairs, covering nine distinct image editing task categories, including object addition, object removal, object replacement, multi-object editing, multi-turn editing, implicit reasoning, action editing, position editing, and viewpoint editing. The dataset content originates from real-world scenarios, boasts high complexity and diversity, and can comprehensively evaluate the performance of image editing models in terms of precise manipulation capabilities. The dataset construction adopted multi-round expert reviews to ensure editing quality, and employed an instruction decoupling strategy that decomposes editing intent into four critical dimensions: position, appearance, dynamics, and object, to ensure tight alignment between instructions and complex editing requirements. CompBench aims to address the limitations of existing image editing models in evaluating complex scene understanding and fine-grained manipulation capabilities, and provide key insights for the development of next-generation instruction-guided image editing systems.

提供机构：

华东师范大学

创建时间：

2025-05-18

搜集汇总

数据集介绍

构建方式

CompBench数据集的构建采用了多模态大语言模型（MLLM）与人工协作的框架，通过精心设计的任务流程实现。首先从MOSE视频实例分割数据集中筛选高质量视频帧，并利用无参考图像质量评估指标进行过滤。随后通过专业团队进行人工验证，确保数据质量。在掩码预处理阶段，将多对象掩码分解为单对象掩码，并由MLLM评估掩码的连续性和遮挡程度。针对不同类型的编辑任务，设计了专门的生成流程，包括局部编辑、动作/场景空间编辑、复杂推理和多编辑任务流程。最后采用指令解耦策略，将编辑意图分解为位置、外观、动态和对象四个关键维度，确保指令与复杂编辑需求的高度匹配。

使用方法

CompBench数据集主要用于评估指令引导的图像编辑模型的性能。使用时需注意：对于局部编辑、多编辑和隐式推理任务，应同时评估前景编辑准确性和背景一致性；对于动作编辑、位置编辑和视角编辑任务，建议采用GPT-4o等大模型进行自动化评估。评估指标包括PSNR、SSIM、LPIPS等传统图像质量指标，以及CLIP图像嵌入相似度等语义级指标。该数据集支持端到端评估，模型直接处理自然语言指令而无需中间处理步骤，确保了评估过程的高效性和实用性。

背景与挑战

背景概述

CompBench是由华东师范大学、香港中文大学等机构的研究团队于2025年提出的复杂指令引导图像编辑基准数据集。该数据集针对现有基准在场景复杂度和任务全面性方面的不足，通过多模态大语言模型与人工协作的框架构建，包含3000余个高质量图像-指令对，涵盖对象增删改、多轮编辑、动作调整等9类复杂编辑任务。其创新性地提出指令解耦策略，将编辑意图分解为空间定位、外观属性、动态状态和对象实体四个维度，显著提升了复杂编辑指令的精确度。作为首个专注于复杂场景编辑评估的大规模基准，CompBench通过引入真实世界图像的密集对象交互和自然遮挡等特性，为评估模型的视觉定位、上下文理解和复杂推理能力提供了标准化平台，推动了指令引导图像编辑领域的研究进展。

当前挑战

CompBench面临的挑战主要体现在两个方面：领域问题层面，现有图像编辑模型在复杂空间关系理解（如"移除最远的老虎"）、多对象协同编辑（如"同时调整两只长颈鹿的颈部姿态"）和隐含逻辑推理（如"根据场景动态推断视角变换"）等任务上表现欠佳，PSNR和CLIP-Score等指标平均下降约30%；数据构建层面，高质量真实场景数据的稀缺性、多对象遮挡标注的复杂性（98.47%图像含遮挡对象），以及保持编辑区域与背景语义一致性的需求（需结合泊松混合等高级图像处理技术），均为数据集的构建带来显著挑战。此外，确保3000余个样本在13个评估维度上的标注一致性，需耗费大量专家人工校验成本。

常用场景

经典使用场景

CompBench作为复杂指令引导的图像编辑基准，广泛应用于评估模型在精细指令遵循、空间与上下文推理方面的能力。该数据集通过包含多对象交互、动态场景变换及隐含逻辑推理等任务，为研究者提供了全面测试模型精确编辑能力的平台。其典型应用场景包括局部编辑（如对象增减替换）、多轮次编辑（如连续指令执行）和复杂推理编辑（如隐含关系调整），这些场景均基于真实世界复杂视觉结构设计。

解决学术问题

CompBench系统性地解决了现有基准在场景复杂度、任务覆盖度和编辑质量三方面的局限性。通过引入细粒度指令解耦策略，将编辑意图分解为空间定位、外观属性、动态状态和对象实体四个维度，显著提升了模型对复合指令的解析能力。该数据集填补了评估模型在遮挡密集、多对象交互等真实场景下编辑性能的空白，为开发下一代指令引导编辑系统提供了关键见解。

实际应用

在实际应用层面，CompBench的高质量数据支持了智能图像处理系统的开发，如广告内容自动生成、影视后期编辑辅助等场景。其涵盖的视角变换、动作调整等任务可直接应用于虚拟现实内容制作，而多对象协同编辑能力则优化了电商产品展示的自动化流程。数据集中98.47%的遮挡率样本和86.38%的出框率样本，确保了模型在复杂现实环境中的鲁棒性。

数据集最近研究