ComplexBench-Edit

Name: ComplexBench-Edit
Creator: 华东师范大学, 中国; 澳门大学, 中国; 奥克兰理工大学, 新西兰
Published: 2025-06-15 20:22:55
License: 暂无描述

arXiv2025-06-15 更新2025-06-19 收录

下载链接：

https://github.com/llllly26/ComplexBench-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

ComplexBench-Edit是一个用于评估图像编辑模型在复杂指令下的性能的新基准。该数据集包含多个相互依赖的指令，旨在模拟现实世界中的复杂编辑场景。数据集的构建过程包括视觉内容过滤、基于类型的指令生成、指令可行性检查和人工审核。该数据集旨在解决现有模型在处理复杂指令时遇到的挑战，并推动图像编辑模型向更高水平的智能发展。

提供机构：

华东师范大学, 中国; 澳门大学, 中国; 奥克兰理工大学, 新西兰

创建时间：

2025-06-15

原始信息汇总

ComplexBench-Edit 数据集概述

基本信息

名称: ComplexBench-Edit
领域: 计算机视觉（图像编辑）
发布日期: 2025年6月
相关论文: arXiv:2506.12830
数据集地址: Hugging Face

数据集简介

ComplexBench-Edit是一个专门用于评估图像编辑模型在复杂指令下性能的基准测试数据集。该数据集主要关注以下方面：

评估模型处理并行和链式依赖指令的能力
提供一种新颖的视觉一致性评估方法，通过仅评估未修改区域来排除修改内容的影响

数据集内容

源图像: 可从Google Drive下载
指令文件: 包含多种类型的编辑指令
- COCO-obj-attr-global/
- COCO-three-obj/
- COCO-two-obj-one-attr/
- three-chain/
- two-chain/

项目结构

ComplexBench-Edit/ ├── baselines/ # 基线模型实现 ├── data/ # 基准测试图像和指令文件 │ ├── instructions/ # 各种类型的编辑指令 │ ├── more-object-no-multi3/ # 源图像存放位置 ├── edited-image/ # 模型编辑后的图像 └── evaluation/ # 评估脚本和提示

评估方法

数据集提供多种评估脚本：

指令遵循评估 (ins_eval.py)
检测评估 (eval-detection.py)
分数计算 (count_score.py, final_score.py)

引用信息

如需使用该数据集，请引用：

@misc{wang2025complexbencheditbenchmarkingcomplexinstructiondriven, title={ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies}, author={Chenglin Wang and Yucheng Zhou and Qianning Wang and Zhe Wang and Kai Zhang}, year={2025}, eprint={2506.12830}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.12830}, }

搜集汇总

数据集介绍

构建方式

ComplexBench-Edit数据集的构建过程经过精心设计，以确保其能够全面评估复杂指令驱动的图像编辑任务。首先，通过视觉内容过滤器从MSCOCO数据集中筛选源图像，确保每张图像包含至少三个不同的对象类别，且同一类别的对象不超过两个，以减少指令歧义。随后，利用多模态大语言模型（MLLM）生成复杂编辑指令，这些指令分为三个层次：并行指令、两链依赖指令和三链依赖指令。生成后的指令经过可行性检查，包括对象场景兼容性、指令间冲突等验证，最后通过人工审核确保指令的合理性和编辑后场景的视觉一致性。

特点

ComplexBench-Edit数据集的主要特点在于其专注于复杂、多步骤和链式依赖的指令驱动图像编辑任务。数据集包含三种层次的指令复杂度，能够系统评估模型在并行和链式依赖指令下的表现。此外，数据集引入了一种新颖的视觉一致性评估方法，通过排除编辑区域的影响，准确评估未修改区域的保留情况。数据集的指令生成过程结合了MLLM的自动生成和人工审核，确保了指令的高质量和多样性。

使用方法

ComplexBench-Edit数据集的使用方法主要包括模型评估和性能分析。研究人员可以利用该数据集测试图像编辑模型在处理复杂指令时的表现，特别是链式依赖指令的执行能力。数据集提供的自动化评估指标包括编辑性能评分和视觉一致性评分，前者通过MLLM评估模型对指令的执行质量，后者通过计算未修改区域的像素距离评估模型的背景保留能力。此外，数据集还支持结合Chain-of-Thought（CoT）推理方法，通过生成详细的编辑步骤描述，提升模型对复杂指令的理解和执行能力。

背景与挑战

背景概述

ComplexBench-Edit是由华东师范大学、澳门大学及奥克兰理工大学的研究团队于2025年推出的图像编辑基准数据集，旨在解决复杂指令驱动的图像编辑任务。该数据集针对现实场景中多步骤、链式依赖的编辑需求，填补了现有基准在评估复杂指令理解与执行能力方面的空白。其创新性体现在系统性地设计了并行、双链和三链指令结构，并引入了排除编辑区域的视觉一致性评估方法，推动了图像编辑模型向组合推理能力的发展。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域层面，现有模型难以准确解析和执行具有顺序依赖关系的链式指令，导致编辑结果逻辑断裂或约束失效；构建层面，需克服多指令语义冲突检测、编辑区域精准隔离评估等难题。具体表现为：1)链式指令中前序操作对后续步骤的传导性影响建模；2)非编辑区域一致性度量易受像素级干扰；3)对象-场景兼容性验证的语义合理性保障。

常用场景

经典使用场景

在计算机视觉领域，ComplexBench-Edit数据集被广泛应用于评估图像编辑模型处理复杂、多步骤指令的能力。特别是在需要模型理解并执行相互依赖的链式指令时，该数据集提供了系统化的测试环境。研究人员利用该数据集，能够全面评估模型在并行多指令和链式依赖指令场景下的表现，从而推动图像编辑技术向更高层次的智能发展。

衍生相关工作

ComplexBench-Edit数据集的推出催生了一系列相关研究工作。例如，基于该数据集提出的Chain-of-Thought (CoT)推理方法，显著提升了现有模型处理复杂指令的能力。此外，该数据集还激发了如Gemini-CoT等新型图像编辑模型的开发，这些模型通过结合多模态大语言模型和链式思维推理，在复杂图像编辑任务中展现了卓越性能，推动了整个领域的进步。

数据集最近研究