ESPLoRA urban-realistic database

Name: ESPLoRA urban-realistic database
Creator: 意大利特伦托大学计算机科学与信息技术系
Published: 2025-04-18 23:21:37
License: 暂无描述

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

http://arxiv.org/abs/2504.13745v1

下载链接

链接失效反馈

官方服务：

资源简介：

ESPLoRA urban-realistic database是一个专注于城市场景理解的新数据集，由特伦托大学等多家机构共同创建。该数据集通过从LAION-400M中提取的约22千个自然图像构建而成，包含约560万个经过精确配对的文本描述与合成图像。这些描述准确地捕捉了图像中的空间关系，为文本到图像的扩散模型提供了高质量的训练材料，以增强模型对空间关系的理解和表达能力。

The ESPLoRA urban-realistic database is a novel dataset dedicated to urban scene understanding, co-developed by the University of Trento and several other institutions. Constructed using approximately 22,000 natural images extracted from LAION-400M, this dataset encompasses roughly 5.6 million accurately paired text descriptions and synthesized images. These descriptions precisely capture the spatial relationships depicted in the images, serving as high-quality training resources for text-to-image diffusion models to enhance their capabilities in understanding and expressing spatial relations.

提供机构：

意大利特伦托大学计算机科学与信息技术系

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

ESPLoRA urban-realistic database的构建采用了多阶段流程，首先从LAION-400M数据集中筛选出包含城市场景的图像-文本对。随后，利用多模态大语言模型Molmo提取城市对象和背景上下文，结合Grounding DINO进行目标检测生成边界框，并通过Depth Anything生成深度图。基于严格的几何约束，开发了一种新的度量方法，从边界框中提取空间关系，最终生成包含明确空间关系的合成提示文本。整个过程确保了文本描述与空间布局的精确对齐，生成了约560万条高质量的空间关系提示。

使用方法

ESPLoRA urban-realistic database主要用于微调文本到图像扩散模型，以提升其空间关系理解能力。用户可以通过加载数据集，结合低秩适应（LoRA）框架进行模型训练。训练过程中，建议使用数据集中的单关系和双关系提示进行多任务学习。评估时，可采用几何约束度量标准检查生成图像中空间关系的准确性。此外，数据集还可用于开发新的空间一致性评估基准，推动文本到图像生成领域的进步。

背景与挑战

背景概述

ESPLoRA urban-realistic database是由Andrea Rigo、Luca Stornaiuolo、Mauro Martino、Bruno Lepri和Nicu Sebe等研究人员于2025年提出的一个专注于空间关系理解的高分辨率文本到图像（T2I）数据集。该数据集基于LAION-400M中的图像-文本对，通过严格的空间关系提取和几何约束，生成了超过560万条空间明确的文本提示和对应的图像。核心研究问题在于解决现有扩散模型在生成图像时难以准确表达文本提示中空间关系的局限性，特别是在复杂的城市场景中。该数据集通过引入几何约束和3D空间关系（如“前面”或“后面”），显著提升了生成图像的空间一致性，为城市规划和设计等应用提供了重要支持。

当前挑战

ESPLoRA urban-realistic database在构建和应用过程中面临多重挑战。首先，在领域问题方面，现有T2I模型在生成复杂空间关系（如多对象布局或3D关系）时表现不佳，导致生成的图像与文本提示的空间描述不一致。其次，在数据集构建过程中，研究人员需要从LAION-400M中筛选出具有明确空间关系的图像-文本对，并通过几何约束提取和验证这些关系，这一过程对算法的准确性和效率提出了较高要求。此外，生成高质量合成图像时，还需确保其与文本提示的空间关系严格对齐，这进一步增加了数据集的构建难度。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，ESPLoRA urban-realistic database为文本到图像（T2I）扩散模型提供了精准的空间关系标注数据。其核心应用场景在于训练模型理解并生成复杂城市环境中物体的三维空间关系（如‘前方’‘后方’‘左右相对位置’），通过几何约束的严格标注，显著提升了模型对‘长椅右侧的路牌’等复合空间描述的生成准确性。该数据集特别适用于需要高保真空间布局的城市场景合成任务。

解决学术问题

该数据集解决了扩散模型在空间关系建模中的两大核心问题：一是传统T2I训练数据中空间描述模糊导致的生成错位问题，二是外部布局控制方法带来的计算开销与灵活性限制。通过从LAION-400M提取的560万条几何验证关系对，研究者首次实现了无需额外空间监督信号的端到端空间一致性优化，将T2I-CompBench基准的空间准确率提升13.33%，为生成模型的几何推理能力建立了新的评估标准。

实际应用

在城市规划与虚拟场景构建中，ESPLoRA数据集支持生成符合真实空间逻辑的街景方案。例如，设计工具可输入‘左侧带露台的楼梯间’等专业描述，直接输出建筑立面效果图；交通仿真系统能自动生成符合道路规范的车辆位置关系。其合成的高分辨率图像（1024×1024）可直接用于方案展示，显著降低了传统3D建模的时间成本。

数据集最近研究