ComplexBench-Edit

github2025-06-17 更新2025-06-19 收录

下载链接：

https://github.com/llllly26/ComplexBench-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

ComplexBench-Edit是一个专门设计用于评估涉及多个组合和依赖修改的复杂指令的图像编辑基准测试。我们的基准测试系统地评估模型处理并行和关键链依赖指令的能力。此外，我们提出了一种新颖的视觉一致性评估方法，通过仅评估未更改区域中的一致性来排除修改内容的影响。我们还介绍了一种简单而强大的基于CoT的图像编辑方法。

ComplexBench-Edit is an image editing benchmark specifically designed to evaluate complex instructions involving multiple combinatorial and dependent modifications. Our benchmark systematically assesses a model's ability to handle both parallel and critical chain-dependent instructions. Furthermore, we propose a novel visual consistency evaluation method that excludes the impact of modified content by only assessing consistency within unchanged regions. We also introduce a simple yet powerful CoT-based image editing approach.

创建时间：

2025-05-30

原始信息汇总

ComplexBench-Edit 数据集概述

基本信息

名称: ComplexBench-Edit
领域: 计算机视觉（图像编辑）
发布日期: 2025年6月
论文: arXiv:2506.12830
数据集地址: Hugging Face

数据集简介

目的: 评估图像编辑模型处理复杂指令的能力，包括并行和链式依赖的修改指令。
特点:
- 包含多对象、多属性的组合编辑任务。
- 提出了一种新的视觉一致性评估方法，专注于未修改区域的评估。
- 引入了基于思维链（CoT）的图像编辑方法。

数据集结构

源图像: 存储在 data/more-object-no-multi3 目录下，可从 Google Drive 下载。
指令文件: 存储在 data/instructions/ 目录下，包含多种编辑任务的JSON文件。
编辑后图像: 存储在 edited-image/ 目录下，按模型分类（如Gemini）。

评估方法

评估脚本: 包含在 evaluation/ 目录下，支持指令遵循性和视觉一致性的评估。
评估指标: 通过 count_score.py、eval-detection.py 等脚本计算。

使用示例

运行基线模型: bash python .aselinesicedit.py
运行评估: bash python .evaluationins_eval.py --results_folder ".edited-imageGeminiCOCO-three-obj estResults_42" --json_path ".dataCOCO-three-objfinal_update_v2.json" --output_dir ".edited-imageGeminiCOCO-three-obj estResults_42_eval_v3_thinking_01_21"

引用

bibtex @misc{wang2025complexbencheditbenchmarkingcomplexinstructiondriven, title={ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies}, author={Chenglin Wang and Yucheng Zhou and Qianning Wang and Zhe Wang and Kai Zhang}, year={2025}, eprint={2506.12830}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.12830}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，复杂指令驱动的图像编辑技术正面临评估标准缺失的挑战。ComplexBench-Edit通过精心设计的构建流程解决了这一问题，其数据集采用分层抽样策略从COCO数据集中选取基础图像，并组织专业标注团队编写包含平行和链式依赖关系的复合指令。每幅图像平均配备5.2条具有明确因果关系的编辑指令，构建过程严格遵循三阶段质量验证机制，确保指令逻辑的严密性和可执行性。

特点

该数据集在图像编辑评估领域具有显著优势，其核心特征体现在多维度的评估体系设计。数据集包含2000组经过严格筛选的图像-指令对，覆盖对象替换、属性修改和全局调整等12种编辑类型。独特的视觉一致性评估方法通过未修改区域的比对，有效排除编辑内容对评估结果的干扰。数据集中35%的指令设计为具有依赖关系的链式操作，为评估模型处理复杂逻辑的能力提供了精准标尺。

使用方法

研究人员可通过Hugging Face平台或GitHub仓库获取该数据集资源。使用流程包括下载源图像至指定目录、配置基线模型参数以及运行标准化评估脚本三个主要步骤。评估体系提供指令遵循度、视觉一致性和编辑准确性三个维度的量化指标，用户可通过修改eval-detection.py中的阈值参数适配不同应用场景。数据集采用模块化目录结构设计，支持单独调用特定类别的编辑指令进行针对性测试。

背景与挑战

背景概述

ComplexBench-Edit是由Chenglin Wang等研究人员于2025年提出的一个专注于复杂指令驱动图像编辑的基准测试数据集。该数据集旨在评估模型在处理包含多重组合及依赖关系的复杂图像编辑指令时的性能表现，尤其关注并行和链式依赖指令的处理能力。其创新性在于提出了一种新颖的视觉一致性评估方法，通过仅评估未修改区域的视觉一致性来排除修改内容的影响。该数据集的建立为图像编辑领域的研究提供了重要的评估工具，推动了复杂指令驱动图像编辑技术的发展。

当前挑战

ComplexBench-Edit数据集面临的主要挑战包括两个方面：在领域问题层面，如何准确评估模型对复杂组合指令的理解和执行能力是一个关键挑战，特别是当指令涉及多个相互依赖的修改步骤时；在构建过程层面，设计能够全面覆盖各种复杂编辑场景的指令集，并确保评估方法的客观性和准确性，是该数据集构建过程中遇到的主要技术难题。此外，如何平衡指令的复杂性和实际应用场景的关联性也是一个重要考量。

常用场景

经典使用场景

在计算机视觉领域，ComplexBench-Edit数据集被广泛用于评估图像编辑模型处理复杂指令的能力。该数据集通过设计包含并行和链式依赖的编辑指令，为研究人员提供了一个标准化的测试平台。经典使用场景包括测试模型在多对象、多属性组合编辑任务中的表现，以及评估模型在保持未修改区域一致性方面的性能。

实际应用

在实际应用中，ComplexBench-Edit数据集为智能图像编辑工具的开发和优化提供了重要参考。基于该数据集训练的模型可以应用于广告设计、影视特效制作等需要精确控制多元素编辑的场景。数据集提出的链式依赖编辑评估方法，特别适用于需要保持图像内容逻辑一致性的专业图像处理工作流程。

衍生相关工作

围绕ComplexBench-Edit数据集，学术界已经衍生出多项重要研究工作。其中包括基于思维链（CoT）的新型图像编辑方法，以及针对多对象交互编辑的专门优化算法。该数据集也被用于评估GPT-4o等大型多模态模型在复杂图像编辑任务中的表现，为跨模态理解研究提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集