Holi-Spatial

github2026-03-30 更新2026-03-23 收录

下载链接：

https://github.com/Visionary-Laboratory/holi-spatial

下载链接

链接失效反馈

官方服务：

资源简介：

Holi-Spatial数据集包含2000多个高质量的高斯模型，每个模型都附带有相应的网格和场景级3D边界框注释，以及基于这些丰富注释的3D资产构建的200万规模的问答数据集HoliSpatial-QA-2M。

The Holi-Spatial Dataset contains over 2000 high-quality Gaussian models, each equipped with corresponding mesh and scene-level 3D bounding box annotations, along with a 2-million-scale QA dataset HoliSpatial-QA-2M constructed from 3D assets based on these rich annotations.

创建时间：

2026-03-06

原始信息汇总

Holi-Spatial 数据集概述

数据集名称

Holi-Spatial

核心描述

该数据集旨在将视频流演化为整体的3D空间智能。

数据集内容与规模

包含 2000+ 个高质量的高斯模型。
每个高斯模型均附有其对应的 网格模型 和 场景级3D边界框标注。
基于部分已标注的3D资产，构建了 HoliSpatial-QA-2M，这是一个 规模达200万的问答数据集。

数据获取

数据集的一个子集已发布在：https://huggingface.co/Holi-Spatial

相关资源

项目主页：https://visionary-laboratory.github.io/holi-spatial/
论文链接：https://arxiv.org/abs/2603.07660
HuggingFace论文页：https://huggingface.co/papers/2603.07660

搜集汇总

数据集介绍

构建方式

在三维空间智能领域，Holi-Spatial数据集的构建体现了从视频流到整体三维场景的演化过程。该数据集通过采集并处理大量高质量视频流，利用先进的算法生成超过2,000个高斯模型，每个模型均配备对应的网格表示和场景级三维边界框标注。在此基础上，进一步构建了HoliSpatial-QA-2M，一个规模达两百万的问题-答案数据集，这些数据均基于部分已标注的三维资产，从而实现了从原始视觉数据到结构化三维知识的系统转化。

特点

Holi-Spatial数据集的核心特点在于其多维度的丰富标注与大规模覆盖。数据集不仅提供了高保真的高斯模型，还包含了精确的网格几何与场景级三维边界框，这些标注为三维场景理解提供了细粒度的空间信息。同时，伴随的两百万规模问答数据集将视觉内容与语义理解深度融合，支持复杂的空间推理任务。这种结合使得该数据集在推动三维视觉与语言模型的交叉研究方面具有独特价值，能够满足从基础重建到高级认知应用的多样化需求。

使用方法

使用Holi-Spatial数据集时，研究者可首先通过其发布的高斯模型与网格数据进行三维场景重建与空间分析实验。标注的边界框可用于训练或评估物体检测与场景布局理解模型。而大规模的问答数据集则适用于开发或测试视觉语言模型在三维空间推理方面的能力，例如进行场景描述、物体关系推理或交互式问答。数据集以标准化格式提供，便于集成到现有机器学习流程中，支持端到端的训练与评估，从而加速三维空间智能领域的技术探索。

背景与挑战

背景概述

在三维空间智能与计算机视觉领域，如何从动态视频流中理解并重建出具有整体性、语义丰富的三维场景，是推动具身智能与增强现实等前沿应用发展的核心问题。Holi-Spatial数据集由Visionary Laboratory等研究团队于近期创建，旨在将演进的视频流转化为全面的三维空间智能。该数据集的核心研究在于弥合二维视觉感知与三维几何理解之间的鸿沟，通过提供大规模的高质量高斯模型、网格、场景级三维边界框标注以及对应的海量问答数据，为三维场景理解、空间推理与生成模型的研究奠定了关键的数据基础，有望显著推动三维视觉与多模态大模型的发展。

当前挑战

该数据集致力于解决从非结构化视频流中实现整体三维空间理解的复杂问题，其核心挑战在于如何精准地从动态、多视角的二维视频序列中恢复出一致、完整且语义可解释的三维场景表示，这涉及对几何、外观、语义及空间关系的联合建模。在构建过程中，研究团队面临数据采集与标注的艰巨性，包括需要处理大规模视频数据、生成高保真的三维高斯模型与网格，以及进行精细的场景级三维边界框标注与百万级问答对的构建，这些过程均要求极高的计算资源与人工校验成本，以确保数据的准确性、一致性与丰富性。

常用场景

经典使用场景

在三维视觉与空间智能领域，Holi-Spatial数据集通过整合高质量的高斯模型、网格数据及场景级三维边界框标注，为研究者提供了从视频流中构建整体三维空间理解的基准平台。该数据集典型应用于训练和评估三维重建、场景解析与空间推理模型，支持从动态视觉输入中提取结构化三维表示，推动计算机视觉从二维感知向三维认知的演进。

实际应用

在实际应用中，Holi-Spatial数据集可赋能增强现实、自动驾驶与机器人导航等前沿技术。例如，在自动驾驶系统中，该数据集支持车辆从车载摄像头视频中实时重建三维道路环境，精确识别障碍物与空间布局；在机器人领域，它助力机械臂理解操作场景的三维结构，实现更精准的抓取与避障，推动智能系统在动态环境中的自主决策与交互。

衍生相关工作

围绕Holi-Spatial数据集，已衍生出多项经典研究工作，主要集中在三维高斯溅射重建、视觉语言模型预训练与空间问答任务上。这些工作利用数据集的高斯模型与问答对，开发了端到端的三维场景生成算法、多模态空间推理模型，以及针对三维资产的细粒度描述与问答系统，为三维人工智能领域的模型创新与基准测试设立了新标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集