five

Spatial-DISE

收藏
arXiv2025-10-15 更新2024-12-18 收录
下载链接:
https://www.blender.org
下载链接
链接失效反馈
官方服务:
资源简介:
Spatial-DISE是一个用于评估视觉语言模型(VLMs)空间推理能力的统一基准。该数据集由利物浦大学计算机科学系的研究团队创建,包含超过12K个经过验证的空间推理视觉问答(VQA)对。数据集分为Spatial-DISE Bench(559个评估VQA对)和Spatial-DISE-12K(12K+个训练VQA对)。Spatial-DISE通过结合现实世界数据收集和Blender软件的合成生成,旨在解决现有基准在评估空间推理能力方面的不足,特别是内在动态空间推理。数据集提供了一个结构化和可重复的方法来理解模型的失败,并通过可扩展和可验证的数据生成流程,为细粒度评估和未来模型开发提供了宝贵资源。

Spatial-DISE is a unified benchmark for evaluating the spatial reasoning capabilities of Vision-Language Models (VLMs). Developed by a research team from the Department of Computer Science, University of Liverpool, the dataset comprises over 12K validated spatial reasoning Visual Question Answering (VQA) pairs. It is split into two subsets: Spatial-DISE Bench (559 evaluation VQA pairs) and Spatial-DISE-12K (12K+ training VQA pairs). Constructed by combining real-world data collection and synthetic generation using Blender software, Spatial-DISE aims to address the shortcomings of existing benchmarks in evaluating spatial reasoning capabilities, particularly intrinsic dynamic spatial reasoning. The dataset provides a structured and reproducible framework for understanding model failures, and offers valuable resources for fine-grained evaluation and future model development via a scalable and verifiable data generation pipeline.
提供机构:
利物浦大学计算机科学系
创建时间:
2025-10-15
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过使用3D渲染引擎Blender创建,涵盖了多种光源参数设置下的阴影生成。具体而言,研究团队收集了9,922个高质量的3D模型,并通过调整光源的极角、方位角和面积大小,生成了257,612张包含阴影的图像。每张图像不仅包含对象的渲染图像,还附带了二值化的对象掩码和灰度阴影图。为了确保阴影与对象的正确连接,研究团队在渲染前对3D模型进行了预处理,使其与地面接触,从而避免了对象悬浮的视觉错觉。
特点
该数据集的显著特点在于其高度可控性和多样性。通过调整光源的参数,如方向、软度和强度,研究团队能够生成具有不同特性的阴影。此外,数据集中的图像分辨率高达1024×1024,确保了图像细节的清晰度。数据集还包含了多种对象类别,涵盖了广泛的现实世界物体,使得模型在训练后能够泛化到多种场景。
使用方法
该数据集主要用于训练和评估可控阴影生成模型。研究团队基于此数据集训练了一个单步扩散模型,该模型能够根据输入的对象图像和光源参数生成可控的阴影。使用时,用户可以通过调整光源的极角、方位角和面积大小来控制阴影的方向、软度和强度。生成的阴影可以与对象图像和目标背景图像进行融合,生成最终的合成图像。
背景与挑战
背景概述
在图像合成和视觉效果领域,生成逼真的阴影是提升图像质量的关键环节。然而,现有的方法在控制阴影的方向、柔和度和强度方面存在局限性。物理基础的方法依赖于3D场景几何,这在实际应用中往往难以获取;而基于学习的方法则难以实现精确的控制,且容易产生视觉伪影。为了解决这些问题,Onur Tasar、Clément Chadebec和Benjamin Aubin等人提出了一种新的可控阴影生成方法,并创建了一个大规模的合成数据集。该数据集通过3D渲染引擎生成,包含多种光源参数下的阴影图,旨在训练单步扩散模型,实现对阴影方向、柔和度和强度的精确控制。该数据集的发布为阴影生成领域的进一步研究提供了新的基准。
当前挑战
该数据集的构建面临多个挑战。首先,收集适合阴影生成任务的数据集是一个难题,手动标注不仅耗时且成本高昂,且难以生成符合物理和几何规则的阴影。其次,如何赋予模型对阴影属性(如方向、柔和度和强度)的精确控制能力,也是一个复杂的问题。此外,尽管渲染引擎能够生成高质量的合成数据,但其泛化到真实世界图像的能力尚未得到充分探索。最后,如何在保持高质量的同时,实现快速的阴影生成,也是该数据集和模型需要解决的关键问题。
常用场景
经典使用场景
Synthetic Dataset for Controllable Shadow Generation 数据集的经典使用场景主要集中在图像合成和视觉效果领域。该数据集通过3D渲染引擎生成大量带有阴影的合成图像,这些图像具有精确控制的阴影方向、软度和强度。这些合成图像被用于训练单步扩散模型,以实现对阴影生成的高度可控性。通过该数据集,研究者可以在不依赖复杂3D场景几何的情况下,快速生成高质量的阴影,广泛应用于产品摄影、包装设计和在线营销等领域。
实际应用
在实际应用中,Synthetic Dataset for Controllable Shadow Generation 数据集的应用场景广泛。例如,在产品摄影中,摄影师可以通过该数据集快速生成符合产品特性的阴影,提升照片的视觉效果。在包装设计和在线营销中,设计师可以利用该数据集生成逼真的阴影,增强产品的展示效果。此外,该数据集还可用于电影特效、虚拟现实和增强现实等领域,帮助创作者快速生成高质量的阴影效果,提升用户体验。
衍生相关工作
基于 Synthetic Dataset for Controllable Shadow Generation 数据集,研究者们已经展开了多项相关工作。例如,有研究提出了基于该数据集的单步扩散模型,用于快速生成可控阴影,显著提升了阴影生成的效率和质量。此外,还有研究探讨了如何将该数据集应用于真实图像的阴影生成,展示了模型在真实场景中的泛化能力。这些衍生工作不仅推动了阴影生成技术的发展,还为图像合成和视觉效果领域提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作