Room-Across-Room (RxR)

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/RxR

下载链接

链接失效反馈

官方服务：

资源简介：

Room-Across-Room (RxR)是一个用于Vision-and-Language Navigation (VLN)的多语言数据集，特别设计用于Matterport3D环境。该数据集包含126,000条英语、印地语和泰卢固语的导航指令，以及相应的导航演示。数据集的特点包括密集的时空对齐，将文本与注释者的视觉感知相关联。

Room-Across-Room (RxR) is a multilingual dataset designed for Vision-and-Language Navigation (VLN), specifically tailored for the Matterport3D environment. The dataset comprises 126,000 navigation instructions in English, Hindi, and Telugu, along with corresponding navigation demonstrations. It features dense spatiotemporal alignment, linking text with the visual perceptions of annotators.

创建时间：

2020-10-15

原始信息汇总

Room-Across-Room (RxR) Dataset 概述

数据集描述

Room-Across-Room (RxR) 是一个多语言的视觉与语言导航（VLN）数据集，专门设计用于 Matterport3D 环境。与类似数据集如 Room-to-Room (R2R) 相比，RxR 数据集规模更大（约为 R2R 的 10 倍），支持英语、印地语和泰卢固语，路径更长且变化更多，并包含精细的视觉基础，将每个单词与环境中的像素/表面关联。

数据集组成

RxR 数据集包含以下四个主要组件：

Guide Annotations：每个 JSON Lines 条目包含环境路径的引导注释。数据结构包括分割类型、指令 ID、注释者 ID、语言、路径 ID、扫描 ID、路径、初始方向、导航指令、时间同步指令和编辑距离。
Follower Annotations：每个 JSON Lines 条目包含跟随者注释，对应于引导注释中的指令。数据结构包括演示 ID、指令 ID、注释者 ID、路径和评估指标。
Pose Traces：与引导和跟随者注释配对的姿态追踪，捕捉注释者的虚拟相机姿态和视野。数据结构包括全景视图、时间戳、音频时间、外部矩阵、内部矩阵、图像掩码、文本掩码和特征权重。
Text Features：提供指令的 BERT 文本特征，包括多语言案例 BERT 特征和跨翻译特征。数据结构包括标记和特征。

数据集下载

数据集总大小为 161GB，可通过安装 gsutil 工具并运行命令进行下载。此外，数据集的各个组件也可以单独下载。

数据集引用

RxR 数据集的详细描述可在论文 Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding 中找到。

Bibtex 引用格式如下：

@inproceedings{rxr, title={{Room-Across-Room}: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding}, author={Alexander Ku and Peter Anderson and Roma Patel and Eugene Ie and Jason Baldridge}, booktitle={Conference on Empirical Methods for Natural Language Processing (EMNLP)}, year={2020} }

搜集汇总

数据集介绍

构建方式

Room-Across-Room (RxR) 数据集的构建基于 Matterport3D 环境，旨在为视觉与语言导航（VLN）任务提供多语言支持。与现有的 Room-to-Room (R2R) 数据集相比，RxR 数据集规模扩大了十倍，涵盖英语、印地语和泰卢固语三种语言，路径更长且更具多样性。数据集的构建过程中，不仅包含了导航指令，还引入了细粒度的视觉接地信息，将每个单词与环境中的像素或表面相关联。数据集的四个主要组成部分包括引导注释、跟随注释、姿态轨迹和文本特征，这些数据以 JSON Lines 和 numpy 存档格式发布。

特点

RxR 数据集的主要特点在于其多语言性和细粒度的视觉接地信息。数据集不仅支持英语，还涵盖了印地语和泰卢固语，为多语言研究提供了丰富的资源。此外，RxR 数据集的路径长度和复杂性显著增加，使得导航任务更具挑战性。数据集还包含了时间对齐的指令，允许研究者分析指令与环境之间的动态关系。通过提供姿态轨迹和文本特征，RxR 数据集为视觉与语言导航任务提供了更为全面的支持。

使用方法

RxR 数据集的使用方法相对灵活，用户可以通过 Google Cloud 的 gsutil 工具下载整个数据集，或选择下载特定的组件，如引导注释、跟随注释、姿态轨迹和文本特征。数据集的引导注释部分类似于 R2R 数据集，足以支持标准的 VLN 设置。用户可以通过 JSON Lines 文件访问导航指令及其相关的时间对齐信息，而姿态轨迹则提供了注释者在虚拟环境中的相机姿态和视野信息。此外，数据集还提供了 BERT 文本特征，便于进行深度学习模型的训练与评估。

背景与挑战

背景概述

Room-Across-Room (RxR) 数据集是面向多语言视觉与语言导航（Vision-and-Language Navigation, VLN）任务的开创性数据集，基于 Matterport3D 环境构建。该数据集由 Alexander Ku 等人于 2020 年提出，旨在解决现有 VLN 数据集（如 Room-to-Room, R2R）在规模、路径长度和语言多样性方面的局限性。RxR 数据集不仅规模是 R2R 的 10 倍，还涵盖了英语、印地语和泰卢固语三种语言，并引入了细粒度的视觉定位，将每个单词与环境中的像素或表面相关联。这一数据集的发布为多语言 VLN 研究提供了丰富的资源，推动了跨语言导航任务的发展。

当前挑战

RxR 数据集在构建过程中面临多项挑战。首先，多语言支持要求数据集在不同语言的语义理解和翻译准确性上达到高标准，这涉及到复杂的语言对齐和翻译技术。其次，细粒度的视觉定位需要精确地将语言指令与环境中的视觉元素关联，这对数据标注和模型训练提出了更高的要求。此外，数据集的规模和复杂性也带来了存储和计算资源的挑战，尤其是在处理大规模的 pose traces 和文本特征时。最后，如何在多语言环境下保持导航任务的一致性和有效性，也是该数据集面临的重要问题。

常用场景

经典使用场景

RxR数据集在视觉与语言导航（VLN）领域中具有广泛的应用，尤其是在多语言环境下的路径规划与导航任务中。该数据集通过提供多语言的导航指令和详细的视觉接地信息，使得研究者能够训练和评估模型在不同语言环境中的导航能力。其经典使用场景包括但不限于：多语言导航模型的训练与评估、视觉接地任务的研究、以及跨语言导航任务的性能比较。

实际应用

在实际应用中，RxR数据集的多语言导航指令和视觉接地信息可以被广泛应用于智能家居、无人驾驶、虚拟现实导航等领域。例如，在智能家居系统中，用户可以通过多种语言与系统交互，系统能够根据用户的指令进行精确的导航和操作。在无人驾驶领域，RxR数据集可以帮助训练车辆在多语言环境下的导航能力，提升其适应性和用户体验。

衍生相关工作

RxR数据集的发布激发了许多相关研究工作，特别是在多语言视觉与语言导航和视觉接地领域。例如，基于RxR数据集的研究已经扩展到跨语言导航模型的开发、视觉接地技术的改进以及多语言环境下的路径规划算法优化。此外，RxR数据集还促进了多语言自然语言处理和计算机视觉的交叉研究，推动了相关领域的技术进步和应用创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集