DLEBench

Hugging Face2026-02-26 更新2026-02-27 收录

下载链接：

https://huggingface.co/datasets/SPUH/DLEBench

下载链接

链接失效反馈

官方服务：

资源简介：

DLEBench 是首个专门用于评估基于指令的图像编辑模型（IIEMs）在小尺度物体编辑能力上的基准测试。该数据集针对仅占图像总面积1%–10%的小物体进行精确局部编辑，填补了现有基准测试在全局或大尺度变化上的不足。数据集包含1,889个样本，涵盖七种指令类型，涉及部分遮挡和多物体编辑等复杂场景。为确保评估的鲁棒性，DLEBench 引入了细化的评估标准（指令遵循和视觉一致性）以及双模式评估框架（工具驱动和Oracle引导模式），以消除LMM-as-a-Judge与人类感知在细粒度编辑任务中的偏差。数据集主要存储在`data.jsonl`文件中，包含源图像、参考图像、编辑指令、源描述、参考描述和边界框坐标等字段。此外，还提供了人工标注数据用于验证评估协议与人类判断的一致性。

创建时间：

2026-02-25

搜集汇总

数据集介绍

构建方式

在图像编辑领域，针对小尺度对象编辑能力的评估长期缺乏专门化基准，DLEBench应运而生。该数据集构建过程严谨，首先从多样化场景中精心选取源图像，确保目标对象仅占据图像总面积的1%至10%，以聚焦局部细微编辑。随后，研究团队设计了七种指令类型，涵盖添加、移除、替换等复杂操作，并生成对应的参考图像与描述性标注。每个样本均附带边界框坐标，精确标识编辑区域，最终形成包含1889个样本的测试集，其构建逻辑旨在模拟真实世界中小尺度对象编辑的挑战性情境。

特点

DLEBench的核心特点在于其专精于小尺度对象编辑的评估维度。数据集不仅提供了源图像与参考图像的成对数据，还整合了清洗后的源描述与目标描述，以及精确的边界框标注，从而支持对编辑指令遵循度与视觉一致性的细粒度分析。尤为突出的是，它引入了双模式评估框架，结合工具驱动与先知引导模式，有效缓解了大型多模态模型作为评判者与人类感知在细微编辑任务上的偏差。这种设计使得该基准能够系统性地检验模型在局部遮挡、多对象编辑等复杂场景下的鲁棒性。

使用方法

使用DLEBench时，研究者可依据数据规范加载主标注文件data.jsonl，并对应访问Source_Images与Reference_Images目录中的图像资源。评估流程通常涉及将指令编辑模型生成的图像与参考图像进行对比，利用数据集提供的边界框信息聚焦于小尺度对象区域。通过遵循其评估协议，研究者可以量化模型在指令遵循和视觉一致性两方面的性能，并可进一步参考Human_Annotation目录中的人工标注数据以验证评估结果与人类判断的一致性，从而推动图像编辑模型在精细化操作能力上的进步。

背景与挑战

背景概述

随着基于指令的图像编辑模型（IIEMs）的快速发展，评估其在复杂场景下的编辑能力成为计算机视觉领域的关键需求。现有基准多聚焦于全局或大规模图像变换，对于小尺度对象的精确编辑缺乏针对性评估。为此，研究团队于2026年提出了DLEBench，这是首个专门用于评估IIEMs在小尺度对象编辑能力上的基准数据集。该数据集由Shibo Hong等研究人员构建，核心研究问题在于解决模型对仅占图像面积1%至10%的微小对象进行指令跟随编辑时的性能量化。通过涵盖七种指令类型、包含1889个样本的测试集，DLEBench填补了细粒度图像编辑评估的空白，对推动可控图像生成技术的进步具有显著影响力。

当前挑战

DLEBench致力于解决小尺度对象编辑这一特定领域问题的挑战，主要包括模型在复杂场景下对微小目标的精准定位与语义保持困难，以及在部分遮挡或多对象共存时维持视觉一致性的能力不足。在数据集构建过程中，挑战体现在高质量参考图像的采集与标注上，需确保编辑指令与视觉结果的严格对齐，同时设计出能消除大型多模态模型作为评判者与人类感知偏差的双模评估框架。这些挑战要求数据集不仅提供丰富的元数据如边界框与描述文本，还需建立可靠的人类标注基准以验证评估协议的鲁棒性。

常用场景

经典使用场景

在计算机视觉领域，指令引导的图像编辑模型正逐渐成为研究热点，而DLEBench作为首个专注于小尺度物体编辑能力的基准测试，其经典使用场景在于系统评估模型在复杂局部编辑任务中的性能。该数据集通过涵盖添加、移除、替换等七类编辑指令，并聚焦于物体仅占图像总面积1%至10%的精细场景，为研究者提供了一个标准化的测试平台，用以量化模型在保持整体视觉一致性的同时，准确执行细微对象编辑的能力。

实际应用

在实际应用层面，DLEBench所针对的小尺度物体编辑能力在众多现实场景中具有重要价值。例如，在数字内容创作领域，它可用于精准修饰照片中的微小瑕疵或替换特定细节；在电子商务中，辅助商品图片的局部调整以提升展示效果；在医学影像分析中，支持对病灶区域的细微修改以进行数据增强。这些应用均要求模型在不过度影响图像整体结构的前提下，实现高精度、可控的局部编辑，而DLEBench为开发和优化此类实用模型提供了关键的评估依据。

衍生相关工作

围绕DLEBench数据集，已衍生出一系列相关的经典研究工作，主要集中在提升指令式图像编辑模型在小尺度对象上的性能。例如，有研究借鉴其评估协议，设计了新的注意力机制以增强模型对局部区域的感知与编辑精度；另有工作利用其提供的边界框标注和双模式评估框架，开发了更鲁棒的训练策略以减少编辑过程中的语义失真。这些工作不仅深化了对细粒度图像编辑的理解，也进一步推动了评估标准与模型能力的协同演进，为后续研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集