SPATIALGEN Dataset
收藏arXiv2025-09-18 更新2025-11-21 收录
下载链接:
https://manycore-research.github.io/SpatialGen/
下载链接
链接失效反馈官方服务:
资源简介:
SPATIALGEN数据集是一个用于室内场景生成的大型合成数据集,包含12328个结构化注释场景、57440个房间和470万张逼真的2D渲染图像。该数据集基于室内设计行业的在线平台上的房屋设计资源,经过精心筛选和标注,为3D场景生成提供了丰富、多样且结构化的多视角数据。数据集的创建旨在解决现有3D场景生成数据集在规模、多样性和结构化标注方面的不足,为室内场景理解和生成领域的研究提供了有力支持。
SPATIALGEN Dataset is a large-scale synthetic dataset dedicated to indoor scene generation. It encompasses 12,328 structurally annotated scenes, 57,440 individual rooms, and 4.7 million photorealistic 2D rendered images. This dataset is derived from housing design resources hosted on online platforms within the interior design industry, and has been rigorously screened and manually annotated to deliver rich, diverse and well-structured multi-view data for 3D scene generation. The dataset was developed to address the limitations of existing 3D scene generation datasets in terms of scale, diversity and structured annotation, providing robust support for research in the field of indoor scene understanding and generation.
提供机构:
香港科技大学, Manycore Tech
创建时间:
2025-09-18
搜集汇总
数据集介绍

构建方式
在三维室内场景生成领域,构建高质量数据集对推动算法发展具有关键意义。SPATIALGEN数据集基于室内设计行业的专业设计资源,通过多阶段筛选流程从在线平台获取12,328个场景。采用物理合理的相机轨迹以0.5米间隔采样,通过行业领先的渲染引擎生成470万张全景图像,每张图像均包含色彩、深度、法线及语义标注。严格的质量控制机制有效剔除了相机物体碰撞、曝光异常等低质量样本,最终形成包含57,440个房间的多样化场景集合。
特点
该数据集在三维场景建模领域展现出显著优势,其核心特征体现在规模性与结构性两个维度。数据集囊括470万张全景渲染图像,覆盖从客厅、卧室到厨房等12类室内空间,并配备精确的三维布局标注与建筑元素标识。通过均衡投影技术将全景图像转化为多视角透视图,支持四种差异化相机轨迹模拟,为模型训练提供丰富的空间覆盖。相较于现有数据集,其在场景多样性与视角完备性方面实现重要突破,为三维生成任务提供了前所未有的数据支撑。
使用方法
该数据集为三维场景生成任务提供了系统化应用路径。研究者可将三维语义布局作为先验条件,结合文本描述或参考图像,通过布局引导的多视角多模态扩散模型生成任意视点的图像序列。模型采用交替注意力机制协调跨视角一致性与跨模态对齐,配合迭代式密集视图生成策略逐步构建完整场景。最终通过三维高斯溅射优化重建显式辐射场,实现自由视点渲染与语义理解,为室内设计、虚拟现实等应用提供技术基础。
背景与挑战
背景概述
三维室内场景生成作为计算机视觉领域的前沿课题,对虚拟现实、机器人仿真等应用具有重要价值。SPATIALGEN数据集由香港科技大学与Manycore Tech Inc.于2025年联合发布,其核心目标在于解决现有三维场景数据在规模与多样性上的不足。该数据集包含12,328个结构化场景、57,440个房间及470万张全景渲染图像,通过专业设计平台构建的物理可信相机轨迹,为多视角生成模型提供了兼具几何一致性与语义丰富性的训练基础。
当前挑战
在领域问题层面,三维场景生成需平衡视觉质量、语义一致性与用户控制能力,现有方法常因数据稀缺导致布局真实性不足或视角外推能力受限。构建过程中,团队面临大规模场景标注的复杂性,需通过多阶段过滤机制剔除低质量渲染,并设计动态相机轨迹以覆盖异构空间结构。此外,全景图像到多视角透视的转换需克服几何失真,而跨模态对齐要求几何、外观与语义信息的同步优化。
常用场景
经典使用场景
在三维室内场景生成领域,SPATIALGEN数据集通过布局引导的生成范式确立了经典应用场景。该数据集为多视角多模态扩散模型提供了结构化训练基础,支持从文本描述或参考图像生成具有空间一致性的室内环境。其全景渲染与精确布局标注的配对数据,使得模型能够学习从任意视角合成光真实感RGB图像、语义分割图与场景坐标图,突破了传统方法在视点外推与语义一致性方面的局限。
实际应用
在实际应用层面,该数据集支撑的生成技术已广泛应用于室内设计、虚拟现实与机器人仿真等领域。设计师可通过文本描述快速生成符合结构约束的室内方案,VR系统能实时构建沉浸式环境,机器人训练则获得物理真实的仿真场景。其从视频估计布局生成新场景的能力,更为空间数字化改造提供了创新解决方案。
衍生相关工作
基于该数据集衍生的经典工作包括布局控制的全景生成方法Ctrl-Room与ControlRoom3D,以及分数蒸馏框架Set-the-Scene与SceneCraft。这些研究通过不同的技术路径探索了布局先验的利用方式,其中多视角扩散架构CAT3D与Bolt3D进一步扩展了该数据集在新型视图合成方面的潜力,形成了以布局为枢纽的生成技术体系。
以上内容由遇见数据集搜集并总结生成



