DETAILMASTER

Name: DETAILMASTER
Creator: 中山大学, 阿里巴巴集团, 伍斯特理工学院
Published: 2025-05-23 01:11:27
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/modelscope/data-juicer/tree/DetailMaster

下载链接

链接失效反馈

官方服务：

资源简介：

DETAILMASTER是一个用于评估文本到图像模型处理长文本描述能力的综合基准。数据集包含平均284.89个token的长且详细的提示，并经过专家验证以确保高质量。该数据集旨在解决当前文本到图像模型在处理包含复杂结构要求的长文本输入时的性能下降问题，涵盖了角色属性、结构化角色位置、多维场景属性和显式空间/交互关系等四个关键评估维度。

提供机构：

中山大学, 阿里巴巴集团, 伍斯特理工学院

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

DETAILMASTER数据集的构建基于现有详细标注数据集，通过多模态属性提取流程增强原始描述。首先识别图像中的主要角色，包括对象、动物和人物，并采用九宫格空间划分方案精确定位角色位置。随后，通过分层分类和视觉补充提取角色属性，同时分析场景背景、光照条件和风格元素。最后，利用大型语言模型整合所有提取的特征，生成平均长度为284.89个标记的详细提示。整个过程经过专家验证，确保数据质量。

特点

DETAILMASTER数据集以其详尽的提示内容和多维评估指标脱颖而出。该数据集包含4,116个长提示，平均标记长度显著超越现有基准，覆盖角色属性、结构化角色位置、多维场景属性和显式空间/交互关系四个关键维度。特别值得注意的是，数据集中包含37,165个角色属性标注和18,526个实体关系标注，为评估文本到图像模型在复杂场景下的组合推理能力提供了全面框架。

使用方法

使用DETAILMASTER数据集时，研究者可通过系统化的评估协议测试模型性能。首先根据数据集提示生成对应图像，随后通过多阶段验证流程评估生成结果：采用双模型系统确认角色存在，利用边界框分析定位准确性，并通过专业评估机制量化四个维度的属性匹配率。数据集还提供精简版本（800个提示），便于快速评估。所有评估工具和数据处理代码均已开源，支持研究者进行定制化分析。

背景与挑战

背景概述

DETAILMASTER是由中山大学、阿里巴巴集团和伍斯特理工学院的研究团队于2025年提出的首个专注于长文本提示的文本到图像（T2I）生成模型的系统性评估基准。该数据集针对专业应用中常见的复杂、细节丰富的长文本提示场景，通过四个核心评估维度（角色属性、结构化角色位置、多维场景属性和显式空间/交互关系），填补了现有T2I评估主要依赖短提示的空白。数据集包含平均长度284.89个token的高质量提示文本，其构建基于人工标注的详细图像描述数据，并经过多模态LLM的精细化扩展，显著推动了生成模型在复杂语义理解和组合推理能力方面的研究进展。

当前挑战

在领域问题层面，DETAILMASTER揭示了当前T2I模型处理长提示时存在的三大核心挑战：1）属性绑定准确率低下（最优模型仅达50%），2）空间关系推理能力不足，3）随着提示长度增加出现的性能渐进性退化现象。在构建过程中，研究团队面临多模态数据对齐的复杂性挑战，包括：跨模态特征提取时LLM的幻觉问题、细粒度空间关系的标准化标注，以及保持长文本语义连贯性同时确保视觉细节完整性的平衡难题。此外，传统评估指标对长提示场景的适应性不足，也促使团队开发了全新的分层评估协议。

常用场景

经典使用场景

DETAILMASTER数据集在文本到图像生成领域中被广泛用于评估模型处理长文本提示的能力。该数据集通过包含平均284.89个标记的复杂提示，模拟了专业应用中常见的详细描述场景。研究者利用该数据集测试模型在生成图像时对复杂组合要求的系统性理解能力，特别是在角色属性、结构化角色位置、多维场景属性和显式空间/交互关系等四个关键维度上的表现。

衍生相关工作

DETAILMASTER数据集衍生了一系列经典工作，包括针对长提示优化的模型如LLM4GEN、ELLA和ParaDiffusion等。这些工作通过采用大型语言模型作为文本编码器或引入专门的训练策略，显著提升了模型在长提示场景下的表现。数据集的评估协议也被广泛采纳，成为衡量文本到图像生成模型性能的新标准。

数据集最近研究