CompBench
收藏CompBench:复杂指令引导图像编辑基准数据集
数据集概述
CompBench(Complex Instruction-guided Image Editing Benchmark)是一个大规模基准数据集,专门用于复杂指令引导的图像编辑任务。该数据集由华东师范大学、小红书、香港中文大学、浙江大学、复旦大学、牛津大学、上海交通大学、中国科学技术大学、南京大学等机构的研究人员联合构建,已被 CVPR 2026 接收为海报展示论文。
核心特点
- 提出 MLLM-人类协作框架 和定制化任务流程
- 采用 指令解耦策略,将编辑意图分解为四个关键维度:位置(location)、外观(appearance)、动态(dynamics) 和 物体(objects)
- 提供细粒度指令遵循、空间推理和上下文推理等具有挑战性的编辑场景
任务类别
CompBench 涵盖 5 大类别,包含 9 个不同的编辑任务:
| 类别 | 任务 | 描述 |
|---|---|---|
| 局部编辑 | 物体移除、添加、替换 | 场景内精确的物体级操作 |
| 多编辑 | 多轮编辑、多物体编辑 | 跨多个目标的链式或同步编辑 |
| 动作编辑 | 动态状态修改 | 修改物体的动作、姿态和动态状态 |
| 场景空间编辑 | 位置编辑、视角编辑 | 空间重新定位和视角变化 |
| 复杂推理 | 隐式推理 | 需要上下文或常识推理的编辑 |
数据集统计
| 统计项 | 数值 |
|---|---|
| 总图像-指令对 | 3,000+ |
| 编辑任务类别 | 5 |
| 不同编辑任务 | 9 |
| 每幅图像平均物体数 | 13.58 |
| 遮挡率 | 98.47% |
| 画面外物体率 | 86.38% |
| 评估模型数量 | 15+ |
高遮挡率和画面外物体率反映了 CompBench 场景的真实复杂度,使其显著比先前基准更具挑战性。
评估指标
CompBench 使用一套互补指标,捕捉编辑质量和背景保留程度:
| 指标 | 名称 | 测量内容 |
|---|---|---|
| LC-T | 局部 CLIP 文本分数 | 编辑区域中的指令遵循忠诚度 |
| LC-I | 局部 CLIP 图像相似度 | 与真实图像相比的编辑区域准确性 |
| PSNR | 峰值信噪比 | 背景重建质量 |
| SSIM | 结构相似性指数 | 背景的结构保真度 |
| LPIPS | 学习感知图像块相似度 | 感知层面的背景一致性 |
数据集结构
数据集按任务组织,可通过 HuggingFace 下载:
tasks/ ├── add/ # 物体添加 ├── remove/ # 物体移除 ├── replace/ # 物体替换 ├── act_loc_view/ # 动作、位置、视角编辑 ├── implicit_reasoning/ # 复杂推理 └── multi_turn_editing/ # 多轮编辑
每个任务目录包含源图像、编辑指令、分割掩码和真实编辑后图像。
模型评估
CompBench 评估了 15+ 个模型,涵盖从早期方法(InstructPix2pix)到最新一代模型(FLUX.1 Kontext、Bagel、Qwen-Image-Edit)的全频谱指令引导图像编辑模型。结果显示,即使最先进的模型在复杂、细粒度的编辑指令下也表现困难,凸显了该基准的区分能力。
引用
bibtex @article{jia2025compbench, title={Compbench: Benchmarking complex instruction-guided image editing}, author={Jia, Bohan and Huang, Wenxuan and Tang, Yuntian and Qiao, Junbo and Liao, Jincheng and Cao, Shaosheng and Zhao, Fei and Feng, Zhaopeng and Gu, Zhouhong and Yin, Zhenfei and others}, journal={arXiv preprint arXiv:2505.12200}, year={2025} }
相关链接




