roomtour3d/roomtour3d

Name: roomtour3d/roomtour3d
Creator: roomtour3d
Published: 2024-12-13 11:08:50
License: 暂无描述

Hugging Face2024-12-13 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/roomtour3d/roomtour3d

下载链接

金山云加速下载

链接失效反馈

官方服务：

资源简介：

RoomTour3D is a geometric perception video - instruction dataset for embodied navigation. It contains video - instruction data of 1,847 room - tour scenes. The dataset offers intermediate products like 3D scene reconstruction with COLMAP, relative depth estimation, and open - world object tagging and positioning. The annotation format covers COLMAP reconstruction, RAM object tagging, Grounding - DINO object bounding boxes, relative depth estimation, and trajectory and instruction arrangement. Moreover, the dataset gives video download links, exit mechanisms, license information, and citation formats.

RoomTour3D是一个用于具身导航的几何感知视频指令数据集，包含1847个房间游览场景的视频指令数据。数据集提供了使用COLMAP进行的3D场景重建、相对深度估计、开放世界对象标签和定位等中间产物。注释格式包括COLMAP重建、RAM对象标签和Grounding-DINO对象边界框、相对深度估计以及轨迹和指令的整理。数据集还提供了视频下载链接、退出机制、许可证信息和引用格式。

提供机构：

roomtour3d

原始信息汇总

RoomTour3D: A Geometry-Aware Video-Instruction Dataset for Embodied Navigation

数据集描述

数据集名称: RoomTour3D
数据集类型: 视频指令数据集
数据集用途: 用于具身导航的训练
数据集规模: 包含1847个房间游览场景的几何感知视频指令数据
数据集内容: 包括3D场景重建、相对深度估计、开放世界对象标签和定位等中间产品

数据集结构

colmap_reconstruction: 包含每个视频对应的3D场景重建数据
ram_grounding_p1: 包含每帧（3 fps）对象标签和基于RAM和Grounding-DINO的接地对象边界框
relative_depth_estimation: 包含每帧（3 fps）相对深度估计数据
trajectories: 包含每个视频的轨迹和指令数据，格式为NaviLLM训练格式

数据文件

open_ended_video_instruction: p1_train_reformat.json
navigable_action_instruction: p1_train_colmap_trajectory_tour3d.json

数据格式

colmap_reconstruction

每个压缩文件包含对应视频的3D场景重建数据
文件结构遵循原始COLMAP输出结构

ram_grounding_p1

每个pickle文件包含每帧（3 fps）对象标签和接地对象边界框
文件结构为{frame_name: [boxes, detction_confidence, tags]}

relative_depth_estimation

每个pickle文件包含每帧（3 fps）相对深度估计数据
文件结构为{frame_name: PIL.Image}

trajectories

open_ended_video_instruction: p1_train_reformat.json
- 包含视频描述和图像信息
- 文件结构为{annotation: [{answers: [], question: , question_id: }], image_info: [{image_id: }], seqence_id: , type: video_desc, videoId: }
navigable_action_instruction: p1_train_colmap_trajectory_tour3d.json
- 包含几何感知方法选择的帧和指令
- 文件结构为{path: [], videoId: , path_id: , instructions: [], longId: , heading: 0.0, optView: }

几何信息

每个帧的几何信息通过navigable action-instruction数据path索引
文件结构为{video_clip_id}-{sparse_model_id}: {frame_id: {real_world_position: [], pos: [], camera_world_position: array([]), yaw: 0.0, pitch: 0.0}}

搜集汇总

数据集介绍

构建方式

RoomTour3D数据集通过收集和标注1847个房间游览视频，构建了一个面向开放世界导航代理的训练数据集。该数据集利用COLMAP进行3D场景重建，结合相对深度估计、开放世界对象标签和定位等中间产物，生成了几何感知的视频指令数据。数据集的构建过程包括视频帧的提取、3D模型的生成、对象标签的标注以及轨迹和指令的整理，确保了数据的多样性和丰富性。

特点

RoomTour3D数据集的特点在于其几何感知的视频指令数据，涵盖了丰富的3D场景重建信息、相对深度估计以及开放世界对象标签。数据集中的每个视频都包含了详细的轨迹和指令信息，能够为导航代理提供精确的几何和语义指导。此外，数据集还提供了多种中间产物，如COLMAP重建的3D模型、RAM生成的对象标签以及Grounding-DINO生成的对象边界框，极大地增强了数据的可用性和研究价值。

使用方法

RoomTour3D数据集的使用方法主要包括下载视频帧数据、加载3D场景重建模型以及解析轨迹和指令信息。用户可以通过HuggingFace平台下载视频帧数据，并利用提供的JSON文件加载3D模型和对象标签。数据集的轨迹和指令信息以JSON格式存储，用户可以通过解析这些文件获取导航路径和相应的指令。此外，数据集还提供了详细的几何信息，用户可以根据需要提取每帧的相机位置和姿态信息，进一步支持导航代理的训练和评估。

背景与挑战

背景概述

RoomTour3D数据集由Mingfei Han等研究人员于2024年发布，旨在推动具身导航领域的研究。该数据集包含1847个房间游览视频，结合了3D场景重建、相对深度估计和开放世界对象标签等多模态信息，为训练开放世界导航代理提供了丰富的几何感知视频指令数据。通过COLMAP进行3D场景重建，并结合RAM和Grounding-DINO进行对象标签和定位，RoomTour3D为具身导航任务提供了全面的数据支持。该数据集的发布不仅填补了现有数据在几何感知和开放世界导航方面的空白，还为相关领域的研究提供了重要的实验基础。

当前挑战

RoomTour3D数据集在构建过程中面临多重挑战。首先，具身导航任务本身具有高度复杂性，要求模型能够理解复杂的空间布局和动态环境变化，这对数据的多样性和标注精度提出了极高要求。其次，3D场景重建和对象标签的生成依赖于多模态技术的融合，如COLMAP、RAM和Grounding-DINO，这些技术的集成与优化需要大量的计算资源和时间。此外，视频数据的采集和标注涉及隐私和版权问题，数据集团队需通过严格的审核机制确保数据合法合规。最后，如何将几何感知信息与导航指令有效结合，以支持开放世界导航任务，仍是该领域亟待解决的核心问题。

常用场景

经典使用场景

RoomTour3D数据集在具身导航领域具有重要应用，特别是在开放世界导航代理的训练中。该数据集通过提供几何感知的视频指令数据，支持导航代理在复杂的三维环境中进行路径规划和决策。其经典使用场景包括基于视频的导航指令生成、三维场景重建以及相对深度估计等任务，为导航代理提供了丰富的视觉和几何信息。

实际应用

在实际应用中，RoomTour3D数据集被广泛用于智能家居、机器人导航以及虚拟现实等领域。例如，在智能家居场景中，导航代理可以利用该数据集进行室内环境的自主探索和路径规划。在机器人导航中，数据集提供的几何信息能够帮助机器人更好地理解周围环境，从而做出更精确的导航决策。此外，虚拟现实应用也可以利用该数据集生成逼真的三维场景，提升用户体验。

衍生相关工作

RoomTour3D数据集衍生了一系列相关研究工作，特别是在具身导航和三维场景理解领域。例如，基于该数据集的NaviLLM模型在导航指令生成任务中取得了显著进展。此外，数据集提供的三维重建和相对深度估计数据也被用于改进现有的深度估计模型和场景理解算法。这些工作不仅推动了具身导航技术的发展，也为相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集