SceneMaker open-set 3D scene dataset
收藏arXiv2025-12-12 更新2025-12-13 收录
下载链接:
https://idea-research.github.io/SceneMaker/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由IDEA研究院联合多所高校构建的大规模开放集3D场景数据集,包含20万合成场景。数据来源于Objaverse 3D对象库,通过混合现有场景数据集进行增强。数据集采用扩散模型生成技术,重点解决严重遮挡条件下的几何质量与姿态精度问题。其核心价值在于为3D场景生成任务提供开集先验知识,支持AIGC、仿真环境构建等应用领域,显著提升了复杂遮挡场景下的生成效果。
This dataset is a large-scale open-set 3D scene dataset constructed by IDEA Research Institute in collaboration with multiple universities, containing 200,000 synthetic scenes. It is sourced from the Objaverse 3D object library and augmented by mixing existing scene datasets. The dataset adopts diffusion model generation technology, focusing on addressing the issues of geometric quality and pose accuracy under severe occlusion conditions. Its core value lies in providing open-set prior knowledge for 3D scene generation tasks, supporting application fields such as AIGC and simulation environment construction, and significantly improving the generation performance in complex occlusion scenes.
提供机构:
清华大学, 香港科技大学, IDEA研究院, LightIllusions
创建时间:
2025-12-12
搜集汇总
数据集介绍

构建方式
在三维场景生成领域,数据集的构建质量直接决定了模型的泛化能力。SceneMaker开放集三维场景数据集的构建采用了系统化的合成策略,其核心流程基于高质量的三维资产库Objaverse进行精心筛选。通过严格的材质与纹理评估标准,从原始模型中筛选出九万个视觉表现优异的模型作为基础元素。每个场景由二至五个随机选取的物体组合而成,并辅以Polyhaven环境贴图作为背景,同时引入带有Perlin噪声的高质量地面纹理以增强真实感。为确保物理合理性,所有物体的最低点被置于同一平面,并严格避免边界框相交。最终,利用Blender的CYCLES引擎从二十个随机视角渲染每个场景,生成了包含二十万场景、总计八百万图像的大规模合成数据集。
特点
该数据集在开放集三维场景理解任务中展现出鲜明的特征优势。其首要特点在于规模宏大且多样性丰富,涵盖二十万合成场景与八百万渲染图像,远超现有室内场景数据集的容量。其次,数据集严格遵循开放集原则,物体选择不受预定义类别限制,能够广泛覆盖现实世界中可能出现的任意物体组合。在真实性方面,数据集通过精心设计的环境光照、背景纹理与物体随机旋转增强,有效模拟了真实世界的视觉复杂性。尤为重要的是,数据集专门针对严重遮挡与多物体交互场景进行构建,为去遮挡与姿态估计模型提供了至关重要的开放集先验知识,弥补了现有数据在此方面的不足。
使用方法
该数据集主要服务于三维场景生成模型的训练与评估,尤其在提升开放集泛化能力方面具有关键价值。在模型训练阶段,数据集可与现有室内场景数据集混合使用,为姿态估计模块提供丰富的开放集模式。具体而言,研究者可将数据集中渲染的多视角图像、对应的物体分割掩码、深度图以及三维点云作为输入条件,训练扩散模型以预测物体在场景中的旋转、平移与尺寸。在评估阶段,数据集可构建专门的开放集测试集,用于量化模型在未见物体类别与复杂空间关系下的几何质量与姿态精度。此外,数据集的合成特性允许进行可控的遮挡强度与物体数量实验,为系统分析模型在极端条件下的鲁棒性提供了可靠基准。
背景与挑战
背景概述
SceneMaker开放集三维场景数据集是伴随SceneMaker框架于2025年提出的,由清华大学、香港科技大学、IDEA研究院及LightIllusions的研究团队共同构建。该数据集旨在解决开放集三维场景生成这一核心研究问题,即从单张图像合成包含任意开放域物体的三维场景。在生成式人工智能与具身智能快速发展的背景下,高质量、多样化的三维场景数据对于三维资产创建、仿真环境构建及三维感知决策等应用至关重要。现有方法受限于室内场景等特定领域的数据集,难以泛化至开放世界。SceneMaker数据集通过大规模合成,融合了Objaverse的高质量物体模型,显著扩展了模型的开放集泛化能力,为推进开放集三维场景生成研究提供了关键的数据基础。
当前挑战
该数据集致力于解决的领域核心挑战是开放集三维场景生成,即在严重遮挡和任意物体类别的条件下,同时生成高质量的三维物体几何与精确的物体位姿。现有方法因缺乏足够的开放集先验知识,在此类复杂场景中性能显著下降。在数据集构建过程中,研究者面临多重挑战:首先,需要从海量的原始三维模型库中严格筛选,剔除透明、材质低劣或纹理缺失的模型,以保障合成场景的视觉质量与可用性;其次,合成场景需确保物理合理性,例如避免物体边界框相交并将物体置于同一平面,同时需通过随机化环境光照、地面纹理及物体旋转来增强数据的多样性与真实性;最后,渲染大规模高质量场景图像(总计800万张)带来了巨大的计算开销与流程复杂性挑战。
常用场景
经典使用场景
在计算机视觉与三维场景生成领域,SceneMaker数据集最经典的使用场景是作为训练与评估基准,用于推动开放集三维场景生成模型的发展。该数据集通过解耦去遮挡与姿态估计任务,专门设计用于处理严重遮挡和开放世界对象下的复杂场景重建问题。研究人员利用其包含的20万合成场景与10K去遮挡图像对,能够系统性地验证模型在室内与开放集环境中的几何质量与姿态精度,为算法在真实世界复杂条件下的泛化能力提供了标准化测试平台。
解决学术问题
SceneMaker数据集有效解决了开放集三维场景生成中两个核心学术难题:严重遮挡下的对象几何质量退化,以及开放世界对象姿态估计的精度不足。传统方法因缺乏足够的开放集先验知识,在遮挡严重或对象类别未知时性能显著下降。该数据集通过提供大规模合成场景与精心设计的去遮挡模式,为模型学习提供了丰富的开放集遮挡与姿态映射关系,从而突破了现有方法在几何完整性与空间关系准确性方面的瓶颈,推动了三维场景理解从受限领域向开放世界的范式转变。
衍生相关工作
SceneMaker数据集的发布催生了一系列围绕解耦三维场景生成的经典研究工作。其提出的统一姿态估计扩散模型架构,启发了后续研究对局部与全局注意力机制的深入探索,例如在多对象交互与场景级条件解耦方面的改进。数据集构建方法论也影响了大规模合成数据生成流程的设计,促使社区关注物理合理性约束与更复杂的对象力相互作用建模。同时,其强调的开放集泛化能力评估标准,为后续三维生成模型在真实世界捕获图像上的性能评测建立了新的参照体系。
以上内容由遇见数据集搜集并总结生成



