R2R-Goal

Name: R2R-Goal
Creator: 华盛顿大学,香港理工大学,微软研究院,卡内基梅隆大学
Published: 2025-08-13 15:05:17
License: 暂无描述

arXiv2025-08-13 更新2025-08-15 收录

下载链接：

https://github.com/F1y1113/GoViG

下载链接

链接失效反馈

官方服务：

资源简介：

R2R-Goal数据集是一个结合了合成和真实世界轨迹的综合基准数据集，旨在支持目标条件视觉导航指令生成任务（GoViG）。该数据集由74,737条轨迹组成，分为训练、验证（已见/未见）和测试部分，每个轨迹包含六个初始第一人称观察序列和一个最终目标观察。这些视觉序列及其对应的导航指令为我们的任务提供了输入。R2R-Goal数据集的创建旨在解决导航指令生成中存在的挑战，即如何从第一人称视觉观察中生成精确且上下文一致的导航指令。

The R2R-Goal dataset is a comprehensive benchmark dataset combining synthetic and real-world trajectories, designed to support the Goal-conditioned Visual Navigation Instruction Generation (GoViG) task. This dataset consists of 74,737 trajectories, which are split into training, validation (seen/unseen), and test subsets. Each trajectory contains six initial first-person observation sequences and one final target observation. These visual sequences and their corresponding navigation instructions serve as the input for the target task. The development of the R2R-Goal dataset aims to address the core challenge in navigation instruction generation: generating accurate and context-consistent navigation instructions from first-person visual observations.

提供机构：

华盛顿大学,香港理工大学,微软研究院,卡内基梅隆大学

创建时间：

2025-08-13

原始信息汇总

GoViG数据集概述

数据集基本信息

名称: R2R-Goal
任务类型: 目标导向的视觉导航指令生成
许可证: MIT
相关论文: arXiv:2508.09547

数据集特点

数据构成: 结合合成轨迹和真实世界轨迹
输入形式: 纯自我中心视觉输入（初始状态和目标状态的视觉观察）
输出形式: 导航指令

核心任务分解

导航可视化
预测连接初始视图和目标视图的中间视觉状态
基于视觉线索的指令生成
根据观察和预测的视觉信息生成语言连贯且空间基础扎实的指令

推理策略支持

单次推理(One-Pass Reasoning): 单次前向传递生成指令
交错推理(Interleaved Reasoning): 交替进行视觉预测和语言生成的增量规划

数据样本示例

包含8个完整样本案例，每个案例展示：

初始视图图像
目标视图图像
两种推理策略生成的轨迹动画
两种推理策略生成的导航指令文本

获取与使用

数据位置: data_samples/R2R_Goal.zip
使用方式: 解压后包含用于调试和演示数据格式的部分数据集

相关资源

实现参考了ANOLE和MVOT的公开代码库
评估脚本: taskeval_vis.py

搜集汇总

数据集介绍

构建方式

R2R-Goal数据集通过整合R2R-CE和HA-R2R数据集中的语言指令，并结合GO Stanford、ReCon和HuRoN数据集中的第一人称视觉观察构建而成。在HA-VLN模拟环境中，利用A*启发式搜索生成自我中心观察序列和对应的导航路径，并通过Qwen-VL-2.5模型对视觉观察和指令进行语义连贯的子场景分割。数据集包含74,737条轨迹，分为训练、验证和测试集，同时还包括150条手动标注的真实世界轨迹。

特点

R2R-Goal数据集以其多样化的合成和真实世界轨迹为特色，涵盖了广泛的室内外环境场景。每条轨迹包含初始的六个自我中心观察和一个最终目标观察，确保了数据的丰富性和实用性。数据集的设计特别注重视觉与语言的对齐，使其成为视觉导航指令生成任务的理想基准。

使用方法

使用R2R-Goal数据集时，研究人员可通过提供的初始和目标视觉观察序列，训练和评估视觉导航指令生成模型。数据集支持多模态推理策略，如一次性推理和交错推理，以模拟人类增量认知过程。此外，数据集还适用于跨域泛化研究，特别是在未见过的非结构化环境中测试模型的适应能力。

背景与挑战

背景概述

R2R-Goal数据集是由华盛顿大学、香港理工大学、微软研究院和卡内基梅隆大学的研究团队于2025年提出的，旨在支持目标条件视觉导航指令生成（GoViG）任务。该数据集整合了来自R2R-CE和HA-R2R的合成轨迹以及来自GO Stanford、ReCon和HuRoN的真实世界轨迹，共计74,737条轨迹，并包含150条手动标注的真实世界轨迹。R2R-Goal的核心研究问题是通过仅利用初始和目标状态的自我中心视觉观察，生成精确且上下文连贯的导航指令，从而提升在未知和非结构化环境中的适应性。该数据集在视觉与语言导航（VLN）领域具有重要影响力，推动了多模态推理和指令生成技术的发展。

当前挑战

R2R-Goal数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，传统的导航指令生成方法依赖于结构化输入（如语义标注或环境地图），限制了其在未知环境中的泛化能力。此外，现有方法通常将视觉数据简化为文本摘要，丢失了原始视觉观察中的关键空间和语义信息。在构建过程中，数据集需要处理来自不同来源的轨迹数据（合成与真实世界），并确保视觉与语言指令的精确对齐。此外，数据集的标注和分割过程需要高效的算法支持（如A*搜索和Qwen-VL-2.5模型的分割能力），以确保数据的质量和一致性。

常用场景

经典使用场景

在视觉与语言导航（VLN）领域，R2R-Goal数据集为研究者提供了一个独特的基准，专注于从初始和目标视角的自我中心视觉观察中生成精确的导航指令。该数据集通过结合合成和真实世界的轨迹，支持模型在未见过的非结构化环境中进行泛化测试。其经典使用场景包括训练和评估多模态大型语言模型（MLLMs），以生成上下文连贯且空间准确的导航指令，而无需依赖语义标注或环境地图等结构化输入。

解决学术问题

R2R-Goal数据集解决了视觉导航指令生成中的关键学术问题，包括如何仅通过原始视觉数据生成精确指令、如何在缺乏先验环境信息的情况下实现跨域泛化，以及如何模拟人类的空间认知过程进行增量式推理。通过分解任务为视觉预测和指令生成两个子任务，该数据集推动了多模态推理策略的发展，显著提升了生成指令的空间准确性和语言连贯性，填补了传统方法依赖特权输入的局限性。

衍生相关工作

R2R-Goal数据集催生了一系列创新研究，如基于链式思维（CoT）的多模态推理框架、视觉-语言联合表征学习模型以及零样本跨域导航系统。典型衍生工作包括LANA（语言感知导航代理）的迭代优化、C-Instructor的视觉链式推理方法，以及Anole-7B模型在指令生成中的微调应用。这些工作共同推动了从全景依赖到纯自我中心视觉输入的范式转变，并为具身智能的认知建模提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集