SceneSplat-49K

Name: SceneSplat-49K
Creator: 索菲亚大学“圣克莱门特·奥赫里德斯基”
Published: 2025-06-10 19:52:45
License: 暂无描述

arXiv2025-06-10 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/GaussianWorld/gaussian_world_49k

下载链接

链接失效反馈

官方服务：

资源简介：

SceneSplat-49K是一个大规模的三维高斯点云数据集，包含约49000个室内和室外场景。数据集来源于多个公开数据集和自收集数据，涵盖了从房间、公寓到街道等多种环境。为了支持三维场景理解模型训练，数据集中的12000个场景还包含了基于最先进的视觉语言模型提取的每个原语视觉语言嵌入，以支持开放词汇场景查询。该数据集旨在促进可扩展的三维高斯点云任务研究。

SceneSplat-49K is a large-scale 3D Gaussian point cloud dataset containing approximately 49,000 indoor and outdoor scenes. The dataset is sourced from multiple public datasets and self-collected data, covering various environments ranging from rooms, apartments to streets. To support the training of 3D scene understanding models, 12,000 of these scenes are additionally equipped with per-primitive visual-language embeddings extracted using state-of-the-art visual-language models, enabling open-vocabulary scene queries. This dataset aims to advance scalable research on 3D Gaussian point cloud tasks.

提供机构：

索菲亚大学“圣克莱门特·奥赫里德斯基”

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在三维视觉领域，构建高质量的大规模数据集是推动通用化模型发展的关键。SceneSplat-49K数据集的构建过程体现了严谨的系统工程方法。该数据集整合了来自多个权威来源的约4.9万个原始场景，包括SceneSplat-7K、DL3DV-10K、HoliCity、Aria合成环境以及众包数据，最终生成了约4.6万个经过精心筛选和优化的三维高斯泼溅场景。构建流程实施了严格的质量控制：筛选具有至少400帧训练视图的场景以确保多视角覆盖；当深度信息可用时，在融合点云位置初始化高斯分布并应用深度监督以优化几何质量；采用gsplat库进行三维高斯泼溅优化，并使用拉普拉斯方差作为清晰度指标过滤模糊帧。此外，通过马尔可夫链蒙特卡洛策略和正则化技术对场景进行高效压缩，最终基于PSNR和深度质量指标对三维高斯场景进行过滤，确保了数据集的整体质量与一致性。

特点

SceneSplat-49K数据集在规模、多样性与质量方面均展现出显著特征，为三维场景理解研究提供了坚实基石。该数据集包含约4.9万个室内外场景，总计约292.4亿个高斯泼溅，在规模上超越了现有同类数据集。其多样性体现在空间尺度的广泛分布：室内场景面积集中在25至250平方米，而室外场景则扩展至平方公里级别，呈现出长尾分布。数据集在重建质量上表现优异，平均PSNR达到27.83 dB，SSIM为0.898，深度L1误差仅为0.061米，确保了外观与几何重建的高保真度。尤为重要的是，其中1.2万个场景进一步配备了由先进视觉语言模型提取的逐基元视觉语言嵌入，为训练通用化的三维场景理解模型提供了丰富的多模态语义信息，有效支持开放词汇查询任务。

使用方法

SceneSplat-49K数据集为三维高斯泼溅领域的模型训练与评估提供了标准化范本。在模型训练方面，该数据集可作为大规模预训练资源，尤其适用于通用化三维场景理解模型的开发。研究人员可利用其附带的视觉语言嵌入，训练能够直接预测高斯泼溅语义特征的编码器，实现无需每场景优化的前向推理。在基准测试方面，数据集支撑了SceneSplat-Bench的构建，该基准包含来自四个数据集的1060个场景和325个语义类别，用于系统评估语言高斯泼溅方法。评估时，模型接收由高斯泼溅表示的三维场景，并输出每个基元的语言嵌入；通过计算其与文本查询嵌入的余弦相似度，实现三维语义分割。该流程在三维空间直接评估性能，采用前景平均交并比和前景平均准确率作为核心指标，确保了评估的全面性与可靠性。

背景与挑战

背景概述

在三维计算机视觉领域，如何高效地联合编码场景的几何、外观与语义信息，并实现开放词汇的视觉语言理解，是当前研究的核心挑战。2025年，由INSAIT、苏黎世联邦理工学院、阿姆斯特丹大学等机构的研究团队联合发布了SceneSplat-49K数据集。该数据集旨在为语言高斯泼溅（LGS）这一新兴研究方向提供首个大规模、高质量的三维场景基准。它汇集了约4.9万个经过精心处理的室内外三维高斯泼溅场景，包含总计超过260亿个高斯基元，并首次系统性地构建了包含1060个场景、325个语义类别的综合性评测基准SceneSplat-Bench。该数据集的建立，标志着三维场景理解从依赖单场景优化向可泛化、数据驱动的预训练范式转变，为构建三维基础模型提供了至关重要的数据支撑。

当前挑战

该数据集致力于解决三维开放词汇场景理解这一核心领域问题，其挑战在于如何让模型在三维空间中直接理解并响应自由形式的语言查询，而非局限于预定义的有限类别。现有方法多基于单场景优化，存在泛化性差、计算成本高、且评测局限于少量场景和固定视角的二维投影等问题。在构建过程中，挑战同样艰巨：首先，大规模、高质量三维高斯场景数据的采集与生成耗费了约2.36个L4 GPU年的计算资源，涉及多源数据整合与严格的质量控制流程；其次，为支持可泛化模型训练，需为海量三维高斯基元计算并关联视觉语言嵌入，此过程不仅计算密集，还需设计自适应的特征融合策略以保留丰富的潜在语义，避免文本描述带来的信息损失。

常用场景

经典使用场景

在三维视觉与语言融合的研究领域，SceneSplat-49K数据集为语言高斯泼溅（LGS）方法提供了大规模、高质量的基准测试平台。该数据集汇集了约4.9万个室内外场景的3D高斯泼溅重建，包含超过260亿个高斯基元，并配备了视觉语言嵌入。其经典使用场景在于系统评估和比较三类主流LGS方法：基于逐场景优化的方法、逐场景无优化方法以及泛化性方法。研究人员利用该数据集在统一的三维空间内，对1060个场景进行零样本三维语义分割实验，衡量不同方法在开放词汇场景理解中的性能，从而推动三维视觉与语言基础模型的发展。

解决学术问题

SceneSplat-49K及其配套基准有效解决了三维场景理解领域长期存在的若干关键学术问题。首先，它填补了大规模、标准化三维评估基准的空白，克服了过去方法仅在少量场景、有限视点或二维投影下评估的局限性，确保了结论的泛化性与可比性。其次，数据集通过提供海量且多样化的三维高斯泼溅场景，为训练泛化性三维基础模型提供了必要的数据先验，使得模型能够学习预测具有丰富语义的视觉语言特征，从而显著提升开放词汇查询和三维分割的准确性。这为构建无需逐场景优化、可快速前向推理的三维场景理解范式奠定了坚实基础。

衍生相关工作

围绕SceneSplat-49K数据集，已衍生出一系列重要的相关研究工作。其核心基准评估了包括LangSplat、FMGS、Feature3DGS、OpenGaussian、GOI等优化方法，以及Gradient-Weighted 3DGS、LUDVIG、OccamLGS等无优化方法，并重点突出了泛化性方法SceneSplat的优越性。这些比较研究不仅验证了泛化性范式在性能和效率上的领先地位，还催生了对于三维基础模型训练数据缩放规律的深入探索。相关工作进一步表明，利用该数据集进行大规模预训练，能够有效提升模型在跨域场景（如从室内到室外）的零样本迁移能力，为后续构建更强大、更通用的三维视觉语言模型指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集