Spatial-DISE

Name: Spatial-DISE
Creator: 利物浦大学计算机科学系
Published: 2025-10-15 18:44:01
License: 暂无描述

arXiv2025-10-15 更新2024-12-18 收录

下载链接：

https://www.blender.org

下载链接

链接失效反馈

官方服务：

资源简介：

Spatial-DISE是一个用于评估视觉语言模型（VLMs）空间推理能力的统一基准。该数据集由利物浦大学计算机科学系的研究团队创建，包含超过12K个经过验证的空间推理视觉问答（VQA）对。数据集分为Spatial-DISE Bench（559个评估VQA对）和Spatial-DISE-12K（12K+个训练VQA对）。Spatial-DISE通过结合现实世界数据收集和Blender软件的合成生成，旨在解决现有基准在评估空间推理能力方面的不足，特别是内在动态空间推理。数据集提供了一个结构化和可重复的方法来理解模型的失败，并通过可扩展和可验证的数据生成流程，为细粒度评估和未来模型开发提供了宝贵资源。

Spatial-DISE is a unified benchmark for evaluating the spatial reasoning capabilities of Vision-Language Models (VLMs). Developed by a research team from the Department of Computer Science, University of Liverpool, the dataset comprises over 12K validated spatial reasoning Visual Question Answering (VQA) pairs. It is split into two subsets: Spatial-DISE Bench (559 evaluation VQA pairs) and Spatial-DISE-12K (12K+ training VQA pairs). Constructed by combining real-world data collection and synthetic generation using Blender software, Spatial-DISE aims to address the shortcomings of existing benchmarks in evaluating spatial reasoning capabilities, particularly intrinsic dynamic spatial reasoning. The dataset provides a structured and reproducible framework for understanding model failures, and offers valuable resources for fine-grained evaluation and future model development via a scalable and verifiable data generation pipeline.

提供机构：

利物浦大学计算机科学系

创建时间：

2025-10-15

搜集汇总

数据集介绍

构建方式

该数据集通过使用3D渲染引擎Blender创建，涵盖了多种光源参数设置下的阴影生成。具体而言，研究团队收集了9,922个高质量的3D模型，并通过调整光源的极角、方位角和面积大小，生成了257,612张包含阴影的图像。每张图像不仅包含对象的渲染图像，还附带了二值化的对象掩码和灰度阴影图。为了确保阴影与对象的正确连接，研究团队在渲染前对3D模型进行了预处理，使其与地面接触，从而避免了对象悬浮的视觉错觉。

特点

该数据集的显著特点在于其高度可控性和多样性。通过调整光源的参数，如方向、软度和强度，研究团队能够生成具有不同特性的阴影。此外，数据集中的图像分辨率高达1024×1024，确保了图像细节的清晰度。数据集还包含了多种对象类别，涵盖了广泛的现实世界物体，使得模型在训练后能够泛化到多种场景。

使用方法

该数据集主要用于训练和评估可控阴影生成模型。研究团队基于此数据集训练了一个单步扩散模型，该模型能够根据输入的对象图像和光源参数生成可控的阴影。使用时，用户可以通过调整光源的极角、方位角和面积大小来控制阴影的方向、软度和强度。生成的阴影可以与对象图像和目标背景图像进行融合，生成最终的合成图像。

背景与挑战

背景概述

在图像合成和视觉效果领域，生成逼真的阴影是提升图像质量的关键环节。然而，现有的方法在控制阴影的方向、柔和度和强度方面存在局限性。物理基础的方法依赖于3D场景几何，这在实际应用中往往难以获取；而基于学习的方法则难以实现精确的控制，且容易产生视觉伪影。为了解决这些问题，Onur Tasar、Clément Chadebec和Benjamin Aubin等人提出了一种新的可控阴影生成方法，并创建了一个大规模的合成数据集。该数据集通过3D渲染引擎生成，包含多种光源参数下的阴影图，旨在训练单步扩散模型，实现对阴影方向、柔和度和强度的精确控制。该数据集的发布为阴影生成领域的进一步研究提供了新的基准。

当前挑战

该数据集的构建面临多个挑战。首先，收集适合阴影生成任务的数据集是一个难题，手动标注不仅耗时且成本高昂，且难以生成符合物理和几何规则的阴影。其次，如何赋予模型对阴影属性（如方向、柔和度和强度）的精确控制能力，也是一个复杂的问题。此外，尽管渲染引擎能够生成高质量的合成数据，但其泛化到真实世界图像的能力尚未得到充分探索。最后，如何在保持高质量的同时，实现快速的阴影生成，也是该数据集和模型需要解决的关键问题。

常用场景

经典使用场景

Synthetic Dataset for Controllable Shadow Generation 数据集的经典使用场景主要集中在图像合成和视觉效果领域。该数据集通过3D渲染引擎生成大量带有阴影的合成图像，这些图像具有精确控制的阴影方向、软度和强度。这些合成图像被用于训练单步扩散模型，以实现对阴影生成的高度可控性。通过该数据集，研究者可以在不依赖复杂3D场景几何的情况下，快速生成高质量的阴影，广泛应用于产品摄影、包装设计和在线营销等领域。

实际应用

在实际应用中，Synthetic Dataset for Controllable Shadow Generation 数据集的应用场景广泛。例如，在产品摄影中，摄影师可以通过该数据集快速生成符合产品特性的阴影，提升照片的视觉效果。在包装设计和在线营销中，设计师可以利用该数据集生成逼真的阴影，增强产品的展示效果。此外，该数据集还可用于电影特效、虚拟现实和增强现实等领域，帮助创作者快速生成高质量的阴影效果，提升用户体验。

衍生相关工作

基于 Synthetic Dataset for Controllable Shadow Generation 数据集，研究者们已经展开了多项相关工作。例如，有研究提出了基于该数据集的单步扩散模型，用于快速生成可控阴影，显著提升了阴影生成的效率和质量。此外，还有研究探讨了如何将该数据集应用于真实图像的阴影生成，展示了模型在真实场景中的泛化能力。这些衍生工作不仅推动了阴影生成技术的发展，还为图像合成和视觉效果领域提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集