CompBench

github2026-05-01 更新2026-05-19 收录

下载链接：

https://github.com/comp-bench/CompBench

下载链接

链接失效反馈

官方服务：

资源简介：

CompBench是一个专门为复杂指令引导图像编辑设计的大规模基准测试数据集，包含具有挑战性的编辑场景，涵盖细粒度指令遵循、空间和上下文推理，用于评估图像编辑模型的精确操作能力。

CompBench is a large-scale benchmark dataset specifically designed for complex instruction-guided image editing. It features challenging editing scenarios covering fine-grained instruction following, spatial and contextual reasoning, and is used to evaluate the precise manipulation capabilities of image editing models.

创建时间：

2026-05-01

原始信息汇总

CompBench：复杂指令引导图像编辑基准数据集

数据集概述

CompBench（Complex Instruction-guided Image Editing Benchmark）是一个大规模基准数据集，专门用于复杂指令引导的图像编辑任务。该数据集由华东师范大学、小红书、香港中文大学、浙江大学、复旦大学、牛津大学、上海交通大学、中国科学技术大学、南京大学等机构的研究人员联合构建，已被 CVPR 2026 接收为海报展示论文。

核心特点

提出 MLLM-人类协作框架 和定制化任务流程
采用 指令解耦策略，将编辑意图分解为四个关键维度：位置（location）、外观（appearance）、动态（dynamics） 和 物体（objects）
提供细粒度指令遵循、空间推理和上下文推理等具有挑战性的编辑场景

任务类别

CompBench 涵盖 5 大类别，包含 9 个不同的编辑任务：

类别	任务	描述
局部编辑	物体移除、添加、替换	场景内精确的物体级操作
多编辑	多轮编辑、多物体编辑	跨多个目标的链式或同步编辑
动作编辑	动态状态修改	修改物体的动作、姿态和动态状态
场景空间编辑	位置编辑、视角编辑	空间重新定位和视角变化
复杂推理	隐式推理	需要上下文或常识推理的编辑

数据集统计

统计项	数值
总图像-指令对	3,000+
编辑任务类别	5
不同编辑任务	9
每幅图像平均物体数	13.58
遮挡率	98.47%
画面外物体率	86.38%
评估模型数量	15+

高遮挡率和画面外物体率反映了 CompBench 场景的真实复杂度，使其显著比先前基准更具挑战性。

评估指标

CompBench 使用一套互补指标，捕捉编辑质量和背景保留程度：

指标	名称	测量内容
LC-T	局部 CLIP 文本分数	编辑区域中的指令遵循忠诚度
LC-I	局部 CLIP 图像相似度	与真实图像相比的编辑区域准确性
PSNR	峰值信噪比	背景重建质量
SSIM	结构相似性指数	背景的结构保真度
LPIPS	学习感知图像块相似度	感知层面的背景一致性

数据集结构

数据集按任务组织，可通过 HuggingFace 下载：

tasks/ ├── add/ # 物体添加 ├── remove/ # 物体移除 ├── replace/ # 物体替换 ├── act_loc_view/ # 动作、位置、视角编辑 ├── implicit_reasoning/ # 复杂推理 └── multi_turn_editing/ # 多轮编辑

每个任务目录包含源图像、编辑指令、分割掩码和真实编辑后图像。

模型评估

CompBench 评估了 15+ 个模型，涵盖从早期方法（InstructPix2pix）到最新一代模型（FLUX.1 Kontext、Bagel、Qwen-Image-Edit）的全频谱指令引导图像编辑模型。结果显示，即使最先进的模型在复杂、细粒度的编辑指令下也表现困难，凸显了该基准的区分能力。

引用

bibtex @article{jia2025compbench, title={Compbench: Benchmarking complex instruction-guided image editing}, author={Jia, Bohan and Huang, Wenxuan and Tang, Yuntian and Qiao, Junbo and Liao, Jincheng and Cao, Shaosheng and Zhao, Fei and Feng, Zhaopeng and Gu, Zhouhong and Yin, Zhenfei and others}, journal={arXiv preprint arXiv:2505.12200}, year={2025} }

相关链接

论文: https://arxiv.org/abs/2505.12200
项目页面: https://comp-bench.github.io/
数据集: https://huggingface.co/datasets/BohanJia/CompBench
GitHub 仓库: https://github.com/comp-bench/CompBench

搜集汇总

数据集介绍

构建方式

在复杂指令引导图像编辑领域，现有基准测试往往简化任务复杂度且缺乏细粒度指令。为填补这一空白，CompBench应运而生。其构建采用多模态大语言模型与人类协作的框架，并针对不同编辑任务设计了专属流水线。具体而言，通过指令解耦策略，将编辑意图清晰拆解为位置、外观、动态和对象四个关键维度，从而生成包含精细指令遵循、空间与上下文推理的挑战性场景。最终构建了包含3000余对图像-指令样本的大规模基准，覆盖目标移除、添加、替换、多轮编辑、动作编辑、位置编辑、视角编辑和隐式推理等9项具体任务，平均每张图像包含13.58个对象，遮挡率达98.47%，展现了真实世界的场景复杂性。

特点

CompBench的核心特点在于其对图像编辑模型精确操控能力的全面评测能力。数据集涵盖了5大编辑类别与9项截然不同的任务，从局部编辑到多对象同步操作，再到需要常识推理的隐式编辑，构成了一套层次分明的评估体系。其极高的对象数量、遮挡率和画外率，使得任务难度远超以往基准。尤为独特的是，CompBench引入了一套联合评估指标，包括局部CLIP文本分数、局部CLIP图像相似度、PSNR、SSIM和LPIPS，从指令遵循保真度、编辑区域精确性及背景保持质量等多维度刻画模型性能，从而能揭示当前模型在处理复杂指令时的本质局限。

使用方法

使用CompBench进行模型评估的过程设计得简洁而模块化。首先，通过执行`download_from_hf.py`脚本从HuggingFace数据集仓库获取完整数据，该数据按照任务类型（如添加、移除、替换等）组织在本地`tasks`目录下。随后，将待评测模型生成的编辑图像按预设结构存放于`editing_results`目录中。最后，运行`eval_all.py`主评估脚本，通过指定模型名称、待评测任务和所需计算的指标（支持全部或单项选择），即可自动完成评估并输出结果。评估脚本支持断点续评，且提供了如`eval_all.sh`的示例命令供快速参考，极大便利了研究者的使用。

背景与挑战

背景概述

在图像编辑领域，现有基准测试多聚焦于简单指令的跟随，难以满足现实应用中对复杂场景精细操控的需求。为此，Bohan Jia、Wenxuan Huang、Yuntian Tang等来自华东师范大学、小红书、香港中文大学等多家机构的学者于2025年联合提出了CompBench，并被CVPR 2026接收。该基准测试系统性地涵盖了局部编辑、多目标编辑、动作编辑、场景空间编辑及隐式推理等五类九种任务，通过细粒度指令与多维度评估框架，全面审视了指令引导图像编辑模型的精准操控能力。CompBench凭借其高度的现实复杂性与丰富的任务划分，为量化模型在复杂指令下的表现提供了关键参照，对该领域的发展具有里程碑式的推动作用。

当前挑战

CompBench重点应对的挑战首先体现在领域问题层面：现有模型在应对细粒度指令跟随、空间上下文推理及多目标同步操作时表现乏力，难以处理高遮挡率（98.47%）与高离帧率（86.38%）的真实场景，暴露了通用编辑模型在复杂任务下的根本性局限。其次，在数据构建过程中，团队面临如何设计涵盖多种复杂编辑意图的指令体系、确保数据质量和任务覆盖率等难题，为此提出了多模态大语言模型与人工协作的创新框架，并借助指令解耦策略将编辑意图拆解为位置、外观、动态与对象四个维度，从而在保证数据多样性的同时提升了标注的准确性与一致性。

常用场景

经典使用场景

在图像编辑与计算机视觉的交叉领域中，指令引导的图像编辑技术正逐步从简单的单步操作迈向复杂场景的精细操控。CompBench作为专为复杂指令引导图像编辑设计的大规模基准，其经典使用场景聚焦于评估模型在五类九项编辑任务上的表现，涵盖局部编辑（如对象移除、添加、替换）、多编辑（如多轮编辑、多对象编辑）、动作编辑、场景空间编辑（如位置编辑、视角编辑）以及隐式推理编辑。通过引入细粒度指令遵循、空间与上下文推理的挑战场景，该基准为衡量模型对复杂指令的精确操作能力提供了标准化的评测框架。

衍生相关工作

基于CompBench的发布，学术界已涌现出一系列衍生研究工作。一方面，该基准为模型比较提供了统一的排行榜，激励了如FLUX.1 Kontext、Bagel、Qwen-Image-Edit等前沿编辑模型的性能优化与迭代，推动了模型在复杂指令遵循方面的专项改进。另一方面，其指令解耦策略启发了更精细的编辑意图建模方法，部分工作进一步探索了多模态大语言模型与传统编辑网络的协同框架。此外，CompBench的高难度评测也催生了针对局部编辑质量、背景保持等维度的新型评估指标设计，丰富了图像编辑领域的评价体系，促进了更全面、公正的模型能力衡量标准的发展。

数据集最近研究