RoomTour3D

Name: RoomTour3D
Creator: 计算机视觉系，MBZUAI，中山大学深圳校区，AAII，UTS，中国科学技术大学
Published: 2024-12-12 02:10:21
License: 暂无描述

arXiv2024-12-12 更新2024-12-13 收录

下载链接：

https://roomtour3d.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

RoomTour3D是一个基于网络房间游览视频的几何感知视频指令数据集，旨在解决视觉与语言导航（VLN）任务中训练数据多样性和规模有限的问题。该数据集包含约10万条开放式描述丰富的轨迹和约20万条指令，涵盖1847个真实房间环境。数据集通过3D重建技术获取行走路径的几何信息，并结合房间类型、物体位置和场景3D形状等额外信息。创建过程中，利用自动化的视频处理管道生成几何感知的行走轨迹和空间上下文文本指令。RoomTour3D主要应用于视觉与语言导航任务，旨在提升导航代理在开放世界环境中的表现，解决复杂室内环境中的导航问题。

RoomTour3D is a geometry-aware video instruction dataset built on web-based room tour videos, aiming to address the limitations in diversity and scale of training data for Vision-and-Language Navigation (VLN) tasks. This dataset contains approximately 100,000 trajectories with rich open-ended descriptions and around 200,000 instructions, covering 1,847 real-world room environments. It acquires geometric information of walking paths via 3D reconstruction techniques, and incorporates additional metadata including room types, object positions and 3D scene shapes. During its development, an automated video processing pipeline is utilized to generate geometry-aware walking trajectories and spatially contextual textual instructions. RoomTour3D is primarily applied to Vision-and-Language Navigation tasks, with the goal of enhancing the performance of navigation agents in open-world environments and solving navigation challenges in complex indoor settings.

提供机构：

计算机视觉系，MBZUAI，中山大学深圳校区，AAII，UTS，中国科学技术大学

创建时间：

2024-12-12

原始信息汇总

RoomTour3D 数据集概述

数据集名称

RoomTour3D

数据集描述

RoomTour3D 是一个用于具身导航的几何感知视频指令调优数据集。该数据集专注于视觉与语言导航任务，旨在通过视频指令和几何信息来训练和评估具身导航模型。

主要研究领域

视觉与语言导航
具身导航
多模态学习
视频指令调优

数据集作者

Mingfei Han
Liang Ma
Kamila Zhumakhanova
Ekaterina Radionova
Jingyi Zhang
Xiaojun Chang
Xiaodan Liang
Ivan Laptev

作者单位

1. 计算机视觉系，MBZUAI
1. 中山大学深圳校区
1. ReLER Lab, AAII, UTS
1. 中国科学技术大学

相关链接

搜集汇总

数据集介绍

构建方式

RoomTour3D数据集通过从网络上的房间游览视频中提取真实世界的室内空间和人类行走演示，构建了一个几何感知视频指令数据集。与现有的视觉语言导航（VLN）数据集不同，RoomTour3D利用在线视频的规模和多样性，生成了开放式的人类行走轨迹和开放世界的导航指令。为了弥补在线视频中缺乏导航数据的不足，研究团队进行了3D重建，获得了带有房间类型、物体位置和周围场景3D形状信息的行走路径。数据集包括约10万条开放式描述丰富的轨迹和约20万条指令，以及1.7万条动作丰富的轨迹，涵盖1847个房间游览环境。

使用方法

RoomTour3D数据集可用于多种视觉语言导航任务的训练和评估，包括CVDN、SOON、R2R和REVERIE等。数据集的开放式描述丰富轨迹和动作丰富轨迹可以用于预训练和微调模型，特别是用于训练零样本导航代理。通过结合3D重建的几何信息和GPT-4生成的详细指令，模型可以更好地理解空间关系和物体位置，从而在复杂的室内环境中进行有效的导航。数据集的中间产品如物体标签和深度图也可用于进一步的模型优化和任务扩展。

背景与挑战

背景概述

RoomTour3D数据集由Mingfei Han等人于2024年提出，旨在解决视觉与语言导航（VLN）任务中训练数据多样性和规模有限的挑战。该数据集通过从网络上的房间游览视频中提取真实世界的室内空间和人类行走演示，构建了一个几何感知的多模态数据集。与现有的VLN数据集不同，RoomTour3D利用在线视频的规模和多样性，生成了开放式的行走轨迹和开放世界的导航指令。通过3D重建技术，数据集还提供了房间类型、物体位置和周围场景的3D形状等额外信息，极大地丰富了训练数据的多样性和复杂性。该数据集包含约10万条开放式描述丰富的轨迹和约20万条指令，以及1.7万条动作丰富的轨迹，涵盖1847个房间环境。实验表明，RoomTour3D在多个VLN任务中显著提升了模型的性能，并为零样本VLN代理的开发提供了有力支持。

当前挑战

RoomTour3D数据集在构建过程中面临多个挑战。首先，如何从网络视频中自动提取高质量的导航轨迹和指令是一个关键问题。视频中的手动标注成本高昂，且难以捕捉真实世界的复杂性。其次，3D重建过程中需要处理大量的视频帧，确保重建的3D场景具有足够的几何精度，以支持导航任务。此外，生成开放式的导航指令需要结合物体多样性和空间感知信息，这对模型的语言生成能力提出了更高的要求。最后，如何在有限的计算资源下高效地处理和利用这些大规模数据，也是一个亟待解决的挑战。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和应用提出了更高的技术要求。

常用场景

经典使用场景

RoomTour3D数据集的经典使用场景主要集中在视觉与语言导航（VLN）任务中。该数据集通过从网络上的房间游览视频中提取真实世界的室内空间和人类行走轨迹，生成开放式的导航指令和行走路径。这些数据不仅包含了丰富的室内场景信息，还通过3D重建技术提供了几何感知的路径，使得模型能够在复杂的室内环境中进行精确的导航。

解决学术问题

RoomTour3D数据集解决了现有VLN数据集在场景多样性和规模上的局限性。传统VLN数据集依赖于人工设计的模拟器和标注轨迹，缺乏真实世界的复杂性和多样性。RoomTour3D通过利用网络视频的规模和多样性，生成了开放式的导航指令和几何感知的路径，显著提升了模型在多个VLN任务中的表现，推动了开放世界导航的研究。

实际应用

RoomTour3D数据集在实际应用中具有广泛的前景，特别是在智能家居、机器人导航和虚拟现实等领域。例如，智能家居系统可以利用该数据集训练的模型来理解用户的语音指令，并执行相应的导航任务。此外，机器人导航系统可以通过该数据集学习如何在复杂的室内环境中进行自主导航，从而在家庭、办公室等场景中提供更智能的服务。

数据集最近研究