DEIG-Bench

Name: DEIG-Bench
Creator: 中山大学; 复旦大学; 耶鲁大学
Published: 2026-02-20 23:11:04
License: 暂无描述

arXiv2026-02-20 更新2026-02-24 收录

下载链接：

https://github.com/dushy5/DEIG

下载链接

链接失效反馈

官方服务：

资源简介：

DEIG-Bench是由中山大学、复旦大学和耶鲁大学联合构建的精细化语义控制多实例生成基准数据集。该数据集针对现有数据集中人类实例不足和单属性提示依赖的缺陷，提供了包含颜色、材质、纹理等多属性组合的描述标注，并通过视觉语言模型生成高质量实例级描述。数据集特别设计了人体穿戴区域的颜色组合性评估和物体属性复杂度递增的测试场景，采用双VLM问答机制验证语义一致性，旨在解决复杂文本描述下的细粒度视觉生成问题。

DEIG-Bench is a fine-grained semantic-controlled multi-instance generation benchmark dataset co-developed by Sun Yat-sen University, Fudan University and Yale University. Aiming at the drawbacks of insufficient human instances and single-attribute prompt dependence in existing datasets, this dataset provides descriptive annotations with multi-attribute combinations including color, material, texture and others, and generates high-quality instance-level descriptions via vision-language models (VLMs). The dataset specially designs test scenarios covering color combinability evaluation of human wearing areas and gradually increasing complexity of object attributes, and adopts a dual-VLM question-answering mechanism to verify semantic consistency, aiming to solve the fine-grained visual generation problem under complex text descriptions.

提供机构：

中山大学; 复旦大学; 耶鲁大学

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在可控图像生成领域，DEIG-Bench的构建旨在填补现有基准在细粒度语义控制评估上的空白。该数据集基于MS-COCO验证集，精心筛选了400幅图像，确保每幅图像包含3至10个可见实例，以支持可靠的属性识别。构建过程采用视觉语言模型生成详细、组合式的实例描述，涵盖颜色、材质和纹理等多属性组合，并通过CLIP分数阈值过滤和人工验证双重机制保障标注质量，从而形成高质量的区域级注释与多属性提示集合。

特点

DEIG-Bench的核心特点在于其针对细粒度、多属性生成的系统性评估设计。数据集专门区分了以人为中心与以物体为中心的场景，分别定义了基于穿戴区域颜色组合的难度等级（C1至C3）和基于属性复杂度递增的等级（L1至L4），从而精准反映真实世界中属性的交织复杂性。此外，它引入了多属性准确率指标，并融合了空间交并比与双视觉语言模型的语义验证，为评估实例级可控性提供了全面而严谨的框架。

使用方法

该数据集主要用于评估多实例生成模型在细粒度语义提示下的性能。研究人员可通过提供的边界框、多属性组合描述及全局上下文，测试模型在空间一致性与语义保真度方面的表现。评估时，需结合Grounding-DINO计算的空间对齐指标，以及基于视觉语言模型的问答设置进行复杂语义一致性验证。DEIG-Bench支持对模型在人类与物体实例上处理颜色、材质、纹理等组合属性的能力进行分层量化分析，从而推动可控生成技术的进步。

背景与挑战

背景概述

DEIG-Bench是由中山大学、复旦大学和耶鲁大学的研究团队于2026年提出的一个专为细粒度多实例生成任务设计的评估基准。该基准的构建源于当前多实例生成方法在处理复杂、多属性文本描述时面临的语义理解不足与细节生成困难。研究团队针对现有数据集中人类实例代表性不足、依赖单属性提示等局限，基于MS-COCO验证集构建了包含多属性组合描述的高质量标注数据。DEIG-Bench通过引入区域级注释和结构化复杂度层级，系统评估模型在人类与物体实例上对颜色、材质、纹理等细粒度属性的组合生成能力，推动了可控图像生成领域向更高语义精度与细节保真度方向发展。

当前挑战

DEIG-Bench旨在解决多实例生成中细粒度语义控制的评估挑战，其核心问题在于如何精确评估模型对复杂多属性提示的语义对齐与组合泛化能力。构建过程中的主要挑战包括：如何设计涵盖颜色、材质、纹理等多属性组合的真实世界描述以突破传统单属性提示的局限；如何平衡人类实例与物体实例的评估维度以覆盖更广泛的应用场景；以及如何建立可靠的自动化评估协议，利用视觉语言模型进行复杂语义一致性验证，避免人工评估的主观性与高成本。这些挑战共同指向了细粒度可控生成领域对高质量数据与评估体系的迫切需求。

常用场景

经典使用场景

在可控图像生成领域，DEIG-Bench作为一项专门评估多实例生成中细粒度语义控制能力的基准，其经典使用场景集中于对复杂文本描述下多属性实例的生成质量进行系统性评测。该数据集通过提供区域级标注和多属性提示，支持对生成模型在空间一致性、语义准确性及组合泛化等方面的严格评估，尤其适用于验证模型在人类中心场景与物体中心场景中处理颜色、材质、纹理等多重属性组合的能力。

衍生相关工作

围绕DEIG-Bench衍生的经典工作主要集中在增强多实例生成的语义控制与空间对齐机制上。例如，基于注意力调制的训练方法、实例级掩码注意力架构以及查询蒸馏技术，均受到该数据集评测范式的启发。这些工作进一步探索了如何避免属性跨实例泄漏，并提升了模型对长文本描述中细粒度信息的理解能力，推动了可控扩散模型在复杂场景下的实用化进展。

数据集最近研究