GSA-R2R
收藏github2025-01-31 更新2025-02-20 收录
下载链接:
https://github.com/honghd16/GSA-VLN
下载链接
链接失效反馈官方服务:
资源简介:
该数据集显著扩展了Room-to-Room (R2R) 数据集的环境和指令的多样性和数量,用于评估agent在ID和OOD环境下的适应性。
This dataset significantly expands the diversity and quantity of environments and instructions from the Room-to-Room (R2R) dataset, aiming to evaluate the adaptability of agents in both ID and OOD settings.
创建时间:
2025-01-27
原始信息汇总
GSA-VLN数据集概述
数据集背景
- 提出目的:解决现有视觉与语言导航(VLN)任务中缺乏持续环境适应能力的问题。
- 核心任务:要求智能体在特定场景中执行导航指令的同时,持续适应环境以提高性能。
- 现实意义:模拟真实世界中导航机器人在固定环境中长期运行的需求。
数据集特点
- 名称:GSA-R2R
- 基础数据集:基于Room-to-Room (R2R)数据集扩展
- 主要改进:
- 显著增加了环境和指令的多样性
- 扩充了指令数量
- 支持分布内(ID)和分布外(OOD)场景下的适应性评估
指令生成
- 采用三阶段指令编排流程:
- 利用大语言模型(LLM)优化生成的指令
- 应用角色扮演技术生成不同说话风格的指令
- 设计动机:模拟真实用户指令的个性化特征(如家庭机器人助手场景)
技术验证
- 提出新方法Graph-Retained DUET (GR-DUET):
- 结合基于记忆的导航图
- 采用环境特定训练策略
- 性能表现:在GSA-R2R所有分割集上达到最先进结果
数据获取
- 指令数据下载地址:https://drive.google.com/file/d/1uBR4F1FD3B6bTdXX17SOFYZRxvQhvYB9/view
- 预训练检查点:https://drive.google.com/file/d/1ZxS4h725lt2U2-Oe7Xn_5y3k9nq9nYRH/view
- 微调检查点:https://drive.google.com/file/d/1-1tHc3-lfgn8BZuhJj2h6R45YIAog159/view
- 训练输入文件:https://drive.google.com/file/d/1Za6E7-Pl3P-uPAVThmdoQQpbszqVQ_A1/view
相关依赖
- Matterport3D Simulator
- ScaleVLN预处理的特征和连接图
引用格式
bibtex @inproceedings{hong2025general, title={General Scene Adaptation for Vision-and-Language Navigation}, author={Haodong Hong and Yanyuan Qiao and Sen Wang and Jiajun Liu and Qi Wu}, booktitle={The Thirteenth International Conference on Learning Representations}, year={2025} }
搜集汇总
数据集介绍

构建方式
GSA-R2R数据集的构建,旨在模拟真实世界中的持续环境,其中机器人需要在具有相对一致物理布局、视觉观察和指导者语言风格的环境中执行任务。该数据集通过扩充Room-to-Room (R2R)数据集中的环境和指令的数量及多样性,来解决现有VLN数据集中存在的分布外数据缺乏和每个场景的指令数量及风格多样性有限的问题。数据集的构建利用了大型语言模型(LLMs)来精炼由说话者生成的指令,并采用角色扮演技术将指令重写成不同的发言风格,以反映用户个体在指令中体现出的独特签名或偏好。
特点
GSA-R2R数据集显著增加了评估代理在ID(分布内)和OOD(分布外)环境中适应性的环境和指令的多样性与数量。该数据集的另一个特点是引入了三阶段指令编排管道,通过这一创新方法,能够更好地模拟真实环境中用户指令的多样性和个性化。此外,数据集的构建考虑了环境特定训练策略,有助于提高视觉与语言导航代理的适应性表现。
使用方法
使用GSA-R2R数据集,研究者需要先安装Matterport3D模拟器并下载所需数据,然后获取预处理的特征和连接图,以及数据集的指令。之后,可以运行预训练代码进行模型训练,接着进行微调并评估模型性能。这一流程确保了研究者能够系统地评估和改进其视觉与语言导航代理在特定环境中的适应能力。
背景与挑战
背景概述
GSA-R2R数据集是在现实世界导航机器人应用背景下产生的,由Haodong Hong等研究人员于2025年提出。该数据集针对视觉与语言导航(VLN)任务中存在的环境适应性问题,通过引入通用场景适应(GSA)的概念,旨在提升导航代理在特定环境中的持续适应能力。GSA-R2R数据集扩展了Room-to-Room(R2R)数据集的环境和指令多样性,为评估代理在ID和OOD环境下的适应性提供了新的基准。该数据集的提出,为视觉与语言导航领域带来了新的研究方向和挑战,具有重要的学术影响力。
当前挑战
GSA-R2R数据集在构建过程中,面临的主要挑战包括:一是现有VLN数据集中缺乏分布外(OOD)数据的问题;二是每个场景的指令数量和风格多样性有限。为了解决这些挑战,研究团队设计了一个三阶段的指令编排管道,利用大型语言模型(LLMs)优化指令,并采用角色扮演技术多样化指令表达风格。此外,研究团队还提出了一种新颖的方法——Graph-Retained DUET(GR-DUET),通过结合基于记忆的导航图和环境特定的训练策略,在GSA-R2R的所有分割上均取得了最先进的结果。
常用场景
经典使用场景
在视觉与语言导航领域,GSA-R2R数据集的典型应用场景在于评估智能体在特定环境中的适应性,尤其是在连续执行导航指令时对环境的适应与优化能力。该数据集通过模拟真实世界中机器人持续运作于物理布局相对固定、视觉观察与指导语言风格一致的环境,为智能体提供了适应特定场景并随时间提升性能的实践机会。
解决学术问题
GSA-R2R数据集针对现有视觉与语言导航任务中存在的两个挑战:缺乏分布外数据(OOD)以及每个场景的指令数量和风格多样性有限。该数据集的构建显著扩展了环境与指令的多样性和数量,为评估智能体在分布内和分布外环境中的适应能力提供了重要基准,有助于推动学术研究中智能体适应性的深入探索。
衍生相关工作
GSA-R2R数据集的提出催生了诸如GR-DUET等新颖方法的研究,该方法结合了基于记忆的导航图和环境特定的训练策略,实现了在GSA-R2R所有数据分割上的领先性能。此类研究进一步推动了视觉与语言导航领域的进步,为相关工作的深入发展奠定了基础。
以上内容由遇见数据集搜集并总结生成



