InteriorGS, SAGE-Bench

github2025-12-17 更新2025-12-18 收录

下载链接：

https://github.com/Galery23/SAGE-3D_Official

下载链接

链接失效反馈

官方服务：

资源简介：

InteriorGS – 一个包含1,000个室内3DGS场景的数据集，带有密集的对象级注释。SAGE-Bench – 第一个基于3DGS的VLN基准，包含200万个轨迹-指令对，一个分层指令生成管道，以及三个新颖的导航连续评估指标。

InteriorGS – a dataset containing 1,000 indoor 3DGS scenes with dense object-level annotations. SAGE-Bench – the first 3DGS-based Vision-and-Language Navigation (VLN) benchmark, which includes 2 million trajectory-instruction pairs, a hierarchical instruction generation pipeline, and three novel continuous evaluation metrics for navigation.

创建时间：

2025-11-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称: SAGE-3D
关联论文: Towards Physically Executable 3D Gaussian for Embodied Navigation
论文链接: https://arxiv.org/abs/2510.21307
项目主页: https://sage-3d.github.io/
官方仓库: https://github.com/Galery23/SAGE-3D_Official

核心贡献与发布资源

本研究提出SAGE-3D，旨在将3D高斯泼溅（3DGS）升级为可执行、语义和物理对齐的环境基础，以支持视觉语言导航（VLN）。其包含两个关键组件：

对象级语义接地：为3DGS提供密集、细粒度的对象级标注。
物理感知执行连接：将碰撞体嵌入3DGS，并提供丰富的物理交互接口。

同时，本研究发布了两项重要资源：

InteriorGS数据集：包含1000个室内3DGS场景，具有密集的对象级标注。
SAGE-Bench基准：首个基于3DGS构建的VLN基准，包含200万条轨迹-指令对、分层指令生成流程和三个新颖的导航连续性评估指标。

数据准备与处理流程

环境要求

必需软件: NVIDIA Isaac Sim 5.0 或更高版本（首个支持3DGS USDZ格式渲染的版本）。

SAGE-3D场景数据准备流程

目标：将InteriorGS的3DGS场景转换为Isaac Sim兼容的USDZ/USDA格式。

下载数据: 下载InteriorGS压缩PLY文件。
PLY解压: 使用 splat-transform 工具将压缩PLY转换为原始PLY。
格式转换: 使用 3DGRUT 工具将PLY文件转换为USDZ格式。
获取碰撞网格: 下载SAGE-3D Collision Mesh数据集。
构建场景文件: 使用提供的 sage3d_usda_builder.py 脚本，将USDZ文件与碰撞网格结合，生成最终的USDA场景文件。

VLN数据构建流程

目标：从InteriorGS 3DGS场景构建完整的VLN数据集。前提：完成SAGE-3D场景数据准备，并下载InteriorGS数据以获取标注文件（labels.json, occupancy.json, occupancy.png）。

场景预处理
- 生成2D语义地图: 使用 semantic_map_builder.py 脚本，将InteriorGS 3D场景转换为用于导航规划的2D语义地图。
- 生成场景文本描述: 通过 physical_map_converter.py 和 scene_text_generator.py 脚本，将场景转换为自然语言描述。
VLN轨迹生成
- 生成2D轨迹与指令: 使用 vln_trajectory_generator.py 脚本，基于语义地图和场景描述，生成带有自然语言指令的导航轨迹。
- 2D转3D坐标: 使用 trajectory_2d_to_3d.py 脚本，将2D轨迹坐标转换为3D世界坐标。
- 合并轨迹数据 (如需要): 使用 trajectory_merge.py 脚本合并分块生成的轨迹。
- 计算轨迹统计: 使用 trajectory_statistics.py 脚本分析轨迹数据。
数据集划分与构建
- 生成划分映射: 使用 trajectory_split_domain_aware.py 脚本，依据场景类型和轨迹复杂度，生成训练/验证/测试集的划分映射。

搜集汇总

数据集介绍

构建方式

在具身导航领域，InteriorGS与SAGE-Bench数据集的构建体现了从三维场景到可执行导航环境的系统性转化。InteriorGS的构建始于对1000个室内场景的密集三维高斯点云采集，通过压缩PLY格式存储，并辅以精细的对象级语义标注，包括边界框坐标与占据信息。随后，利用splat-transform工具进行点云解压，再借助3DGRUT框架将PLY格式转换为USDZ格式，最终整合碰撞网格数据，生成兼容Isaac Sim的USDA场景文件，为物理交互提供基础。

特点

该数据集的核心特点在于其深度融合了语义理解与物理可执行性。InteriorGS不仅提供高保真的三维高斯点云表示，还嵌入了密集的对象级语义标注，支持细粒度的场景理解。SAGE-Bench作为首个基于三维高斯的视觉语言导航基准，引入了层次化指令生成机制，涵盖两种主要任务类型与两种轨迹复杂度，并设计了三种新颖的导航连续性评估指标，以全面衡量智能体的导航性能。数据集整体强调场景的真实感与交互的物理可行性，有效弥合了仿真与现实的鸿沟。

使用方法

使用该数据集需遵循从场景准备到数据生成的完整流程。首先，通过下载InteriorGS的压缩PLY文件，利用splat-transform与3DGRUT工具链将其转换为USDZ格式，并整合碰撞网格以构建USDA场景。随后，运行语义地图构建与场景文本生成脚本，将三维场景转化为二维语义图与自然语言描述。接着，调用轨迹生成模块，基于大型语言模型生成导航轨迹与对应指令，并将二维坐标映射至三维空间。最终，通过数据分割脚本划分训练、验证与测试集，为视觉语言导航模型的训练与评估提供结构化数据支持。

背景与挑战

背景概述

在具身智能与视觉语言导航领域，仿真环境的真实性与可交互性长期制约着智能体从虚拟到现实的迁移能力。InteriorGS与SAGE-Bench数据集于2025年由浙江大学与Manycore Tech Inc.等机构联合发布，旨在通过融合三维高斯泼溅技术与物理可执行语义，构建高保真、可交互的室内导航环境基础。该数据集核心聚焦于解决传统视觉语言导航中场景表示缺乏细粒度语义理解与物理可执行性的瓶颈，通过为1000个室内三维高斯场景提供密集物体级标注，并构建包含200万轨迹-指令对的基准测试，推动了导航智能体在复杂动态环境中的感知与决策研究。

当前挑战

该数据集致力于攻克视觉语言导航中场景表示与物理交互融合的深层挑战。在领域层面，传统三维高斯泼溅虽能实现逼真渲染，却缺乏物体级语义信息与碰撞检测能力，导致导航智能体难以理解场景结构并执行物理动作。构建过程中，团队需解决多模态数据对齐的复杂性，包括将二维语义地图、三维几何模型与自然语言指令进行时空一致融合，同时确保大规模轨迹数据的多样性与合理性。此外，物理碰撞体的精确嵌入与实时渲染的效率平衡，以及跨平台数据格式的兼容性转换，均是实现可执行导航环境的关键技术难点。

常用场景

经典使用场景

在具身智能与视觉语言导航领域，InteriorGS与SAGE-Bench数据集为研究提供了高度逼真且可执行的室内环境基础。其经典使用场景聚焦于训练和评估智能体在复杂三维空间中的导航能力，通过融合细粒度语义标注与物理碰撞体，使得智能体能够在仿真环境中进行精确的路径规划与交互。该数据集支持从二维语义地图生成到三维轨迹仿真的完整流程，为模拟到现实的迁移学习奠定了坚实基础。

解决学术问题

该数据集有效解决了视觉语言导航研究中长期存在的语义粒度不足与物理可执行性缺失问题。传统方法往往依赖简化的仿真环境，缺乏真实世界的细节与交互可能性。InteriorGS通过对象级语义标注增强了三维高斯泼溅的场景理解能力，而SAGE-Bench则引入了层次化指令生成与连续性评估指标，推动了导航策略在复杂、动态环境中的泛化性能研究，显著缩小了仿真与现实之间的语义及物理鸿沟。

衍生相关工作

围绕InteriorGS与SAGE-Bench，学术界已衍生出一系列聚焦于可执行三维表示与导航的经典工作。例如，基于对象级语义增强的三维高斯泼溅方法被广泛用于提升场景理解的精度；结合物理碰撞体的仿真框架则促进了具身导航中安全性与效率的研究。此外，数据集的层次化指令生成机制也启发了多模态大语言模型在轨迹规划中的应用，推动了视觉语言导航向更自然、更鲁棒的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集