EBench-18K

Name: EBench-18K
Creator: 上海交通大学图像通信与网络工程研究所, 电子科技大学, 新加坡南洋理工大学
Published: 2025-07-22 11:11:07
License: 暂无描述

arXiv2025-07-22 更新2025-07-24 收录

下载链接：

https://github.com/IntMeGroup/LMM4Edit

下载链接

链接失效反馈

官方服务：

资源简介：

EBench-18K是一个大规模的图像编辑评估基准数据集，包含18,000张由17种最先进的文本引导图像编辑（TIE）模型生成的编辑图像。数据集涵盖了21个精细的编辑任务，包括高层次的添加、删除、替换、颜色、纹理、风格、动作、表情、天气和季节、背景、计数、位置和大小等维度，以及低层次的去模糊、去雾、降噪、去雨、去雪、低光增强、阴影去除和超分辨率等维度。数据集还包含了1,080张高质量源图像和相应的编辑提示，以及超过1,000,000个人类注释，涵盖了感知质量、编辑对齐、属性保留和任务特定准确性等维度。

EBench-18K is a large-scale image editing evaluation benchmark dataset consisting of 18,000 edited images generated by 17 state-of-the-art text-guided image editing (TIE) models. This dataset encompasses 21 fine-grained editing tasks covering two categories of dimensions: high-level dimensions including addition, deletion, replacement, color adjustment, texture modification, style transfer, action modification, expression adjustment, weather and season variation, background modification, object counting, position adjustment and size modification, as well as low-level dimensions including deblurring, dehazing, denoising, deraining, desnowing, low-light enhancement, shadow removal and super-resolution. Additionally, the dataset includes 1,080 high-quality source images and their corresponding editing prompts, as well as over 1,000,000 human annotations covering perceptual quality, editing alignment, attribute preservation and task-specific accuracy.

提供机构：

上海交通大学图像通信与网络工程研究所, 电子科技大学, 新加坡南洋理工大学

创建时间：

2025-07-22

原始信息汇总

LMM4Edit数据集概述

基本信息

数据集名称: LMM4Edit
相关论文: LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs
会议: ACM MM 2025
研究领域: 多模态图像编辑与大型多模态模型(LMMs)

数据集内容

数据类型: 多模态图像编辑数据
训练数据: ./data/train_v.json
验证数据: ./data/test_v.json

下载信息

数据集下载链接: 百度网盘
预训练权重: 需下载Qwen2.5-VL预训练权重并放置于./weights/qwen2_5目录

使用方式

训练

bash CUDA_VISIBLE_DEVICES=0 swift sft --model_type qwen2_5_vl --model ./weights/qwen2_5 --dataset ./data/train_v.json --val_dataset ./data/test_v.json --max_length 4096 --num_train_epochs 2 --save_steps 16 --eval_steps 16 --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --gradient_accumulation_steps 16 --freeze_llm false --freeze_vit false

评估

bash python evaluate.py --model_path ./weights/qwen2_5 --ckpt_path ./weights/checkpoints/model_weights_v.pth --val_dataset ./data/test_v.json --output_json /path/to/output_predictions.json --QA False

引用信息

bash @misc{xu2025lmm4editbenchmarkingevaluatingmultimodal, title={LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs}, author={Zitong Xu and Huiyu Duan and Bingnan Liu and Guangji Ma and Jiarui Wang and Liu Yang and Shiqi Gao and Xiaoyu Wang and Jia Wang and Xiongkuo Min and Guangtao Zhai and Weisi Lin}, year={2025}, eprint={2507.16193}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.16193}, }

搜集汇总

数据集介绍

构建方式

EBench-18K数据集的构建遵循严谨的多阶段流程，首先从自由摄影网站和开放数据集中精选1080张高质量源图像，涵盖21项细粒度编辑任务（包括13项高级任务如物体添加/移除/替换和8项低级任务如去雾/去噪）。研究团队通过人工设计结合大语言模型生成的方式，为每张图像配套了指令型与描述型两种编辑提示文本。随后采用17种前沿文本引导图像编辑模型（包括描述型和指令型方法）生成18,360张编辑后图像。为确保评估的全面性，15名专业标注员通过标准化界面进行了三轮主观评估，最终收集到55,080个平均意见分数（MOS）和18,360组问答对，形成多维度的质量标注体系。

特点

作为当前规模最大的文本引导图像编辑评估基准，EBench-18K具有三个显著特征：其任务体系覆盖21类编辑场景，既包含需要精确局部修改的高级任务（如表情调整），也涉及全局优化的低级任务（如超分辨率）；数据集提供多维度量化指标，包括感知质量、编辑对齐度和属性保留度的MOS评分，以及任务特定的是非问答准确率；独特的双提示设计（指令型与描述型）支持对不同范式编辑模型的全面评测。统计显示数据集中高低级任务占比均衡（51.9% vs 48.1%），且所有图像分辨率均不低于1024×1024以满足现代生成模型的输入需求。

使用方法

该数据集支持三种主要应用范式：研究者可通过MOS评分横向比较不同编辑模型在感知质量、指令对齐等维度的性能差异；利用细粒度任务分类进行模型能力诊断，例如分析特定模型在天气转换或计数修改任务中的表现；基于问答对开发自动化评估指标。典型使用流程包括：加载源图像与对应编辑提示，调用不同模型生成编辑结果，继而采用数据集提供的标注进行定量分析。为提升评估效率，建议配合论文提出的LMM4Edit评估框架，该框架已针对数据集的评分体系进行优化，可实现自动化多维质量评估。

背景与挑战

背景概述

EBench-18K是由上海交通大学、电子科技大学和南洋理工大学的研究团队于2025年推出的首个大规模文本引导图像编辑（TIE）评估基准数据集。该数据集包含1,080张高质量源图像和对应的多样化编辑提示，涵盖21个细粒度编辑任务，通过17种最先进的TIE模型生成了18,360张编辑图像。研究团队通过广泛的主观研究收集了超过100万个人类标注，包括55,080个平均意见分数（MOS）和18,360个问答对，用于评估编辑图像的感知质量、编辑对齐和属性保持等多个维度。EBench-18K的推出填补了TIE评估领域缺乏大规模、多维度标注数据集的空白，为TIE模型的性能评估和优化提供了重要工具。

当前挑战

EBench-18K面临的挑战主要包括两个方面：一是TIE模型评估的复杂性，现有评估方法难以全面衡量编辑图像在感知质量、编辑对齐和属性保持等多个维度的表现；二是数据集构建过程中的技术难题，包括如何设计多样化的编辑任务、确保源图像和编辑提示的质量，以及如何高效收集和标注大规模的人类评估数据。此外，如何确保评估指标与人类感知偏好的一致性，以及如何扩展数据集以覆盖更多样化的编辑场景，也是EBench-18K需要解决的关键问题。

常用场景

经典使用场景

EBench-18K数据集在文本引导图像编辑（TIE）领域具有广泛的应用场景，特别是在评估和比较不同TIE模型的性能方面。该数据集通过提供18K+经过人工标注的编辑图像，覆盖了21个细粒度任务，包括添加、移除、替换、颜色调整等多种编辑操作。研究人员可以利用该数据集对TIE模型在感知质量、编辑对齐和属性保留三个维度上进行全面评估，从而推动模型性能的提升。

解决学术问题

EBench-18K解决了TIE领域中的多个关键学术问题。首先，它填补了现有评估基准在规模和多样性上的不足，提供了大规模且多样化的编辑图像和标注数据。其次，通过引入多维度评估指标（如感知质量、编辑对齐和属性保留），该数据集帮助研究人员更全面地理解模型性能。此外，EBench-18K还支持对大型多模态模型（LMM）的理解能力进行评估，为模型优化提供了重要参考。

衍生相关工作

EBench-18K数据集衍生了一系列相关研究工作，特别是在TIE模型评估和优化领域。基于该数据集，研究人员提出了LMM4Edit模型，这是一种基于大型多模态模型的全方位评估方法，能够从多个维度对编辑结果进行评分。此外，该数据集还启发了对现有TIE模型的系统性比较研究，如FlowEdit、PnP和RFSE等模型的性能分析。这些工作进一步推动了TIE技术的发展和实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集