VLN-SRDF

Name: VLN-SRDF
Creator: 上海人工智能实验室
Published: 2024-12-11 23:32:24
License: 暂无描述

arXiv2024-12-11 更新2024-12-13 收录

下载链接：

https://github.com/wz0919/VLN-SRDF

下载链接

链接失效反馈

官方服务：

资源简介：

VLN-SRDF数据集是由上海人工智能实验室创建的高质量语言引导导航数据集，旨在通过迭代自优化过程生成大规模的导航指令-轨迹对。数据集包含490万条指令-轨迹对，涵盖了多样化的环境和指令。数据集的创建过程通过两个模型的协作实现，即指令生成器和导航器，通过数据过滤和优化不断提升数据质量。该数据集主要应用于语言引导的导航学习，旨在解决实体AI中高质量数据稀缺的问题，提升导航任务的性能。

The VLN-SRDF dataset is a high-quality language-guided navigation dataset developed by the Shanghai AI Laboratory. It aims to generate large-scale navigation instruction-trajectory pairs via an iterative self-optimization process. The dataset includes 4.9 million instruction-trajectory pairs, covering diverse environments and instruction scenarios. The creation of this dataset relies on the collaboration of two models: the instruction generator and the navigator, which continuously improve data quality through data filtering and optimization. This dataset is primarily applied to language-guided navigation learning, with the goal of addressing the scarcity of high-quality data in embodied AI and enhancing the performance of navigation tasks.

提供机构：

上海人工智能实验室

创建时间：

2024-12-11

原始信息汇总

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

数据集概述

该数据集用于语言引导的导航学习，通过自精炼数据飞轮（Self-Refining Data Flywheel）方法进行训练和测试。数据集包括导航器和生成器的训练数据，以及用于数据生成的代码。

安装指南

安装Matterport3D模拟器：按照这里的说明进行安装，使用最新版本。
安装依赖项：

conda create --name vlnde python=3.9 conda activate vlnde pip install -r requirements.txt

测试结果复现

R2R导航

执行以下命令以复现R2R导航测试结果：

cd VLN-DUET/map_nav_src bash scripts/valid_r2r.bash
日志输出示例：

Env name: val_train_seen, action_steps: 5.36, steps: 5.81, lengths: 11.80, nav_error: 1.00, oracle_error: 0.56, sr: 91.33, oracle_sr: 94.00, spl: 87.94, nDTW: 89.56, SDTW: 86.45, CLS: 88.58 Env name: val_seen, action_steps: 5.30, steps: 5.57, lengths: 11.21, nav_error: 1.54, oracle_error: 0.95, sr: 86.78, oracle_sr: 90.70, spl: 83.31, nDTW: 86.67, SDTW: 81.03, CLS: 85.26 Env name: val_unseen, action_steps: 5.63, steps: 6.22, lengths: 12.00, nav_error: 1.62, oracle_error: 0.92, sr: 85.65, oracle_sr: 90.34, spl: 78.72, nDTW: 81.13, SDTW: 75.73, CLS: 79.85

R2R指令生成

执行以下命令以复现R2R指令生成测试结果：

cd Mantis bash mantis/train/scripts/valid_best.bash
日志输出示例：

bleu1: 75.32, bleu4: 31.14, meteor: 24.99, rouge: 51.37, cider: 49.16, spice: 26.18, spice_v1: 30.94, num_words: 198.00, avg_lens: 23.78

引用

如果该数据集对你的研究有帮助，请引用以下论文： bibtex @article{zun2024srdf, author = { Wang, Zun and Li, Jialu and Hong, Yicong and Li, Songze and Li, Kunchang and Yu, Shoubin and Wang, Yi and Qiao, Yu and Wang, Yali and Bansal, Mohit and Wang, Limin}, title = {Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel}, journal = {arxiv}, year = {2024}, url = {https://arxiv.org/abs/2412.08467} }

搜集汇总

数据集介绍

构建方式

VLN-SRDF数据集通过自精炼数据飞轮（Self-Refining Data Flywheel, SRDF）构建，该方法通过迭代优化生成高质量的导航指令-轨迹对。SRDF的核心在于两个模型的协同工作：指令生成器和导航器。初始阶段，使用基础生成器创建初始数据池，用于训练基础导航器。随后，训练后的导航器对数据池进行过滤，筛选出高保真数据，用于训练更优的生成器。这一过程形成了一个自我精炼的循环，生成器和导航器在迭代中相互提升，最终生成大规模高质量的导航数据集。

特点

VLN-SRDF数据集的主要特点在于其自精炼的构建方式，通过迭代优化实现了数据质量的持续提升。该数据集不仅规模庞大，涵盖了多样化的环境和指令，还具有高保真度和语言忠实性。此外，数据集的构建过程完全自动化，无需人工干预，确保了数据的一致性和可扩展性。实验结果表明，经过多轮迭代后，导航器的性能显著提升，首次超越了人类表现，同时生成器的指令生成质量也得到了显著改善。

使用方法

VLN-SRDF数据集可用于训练和评估语言引导的导航代理。用户可以通过该数据集训练导航器模型，使其能够在未知环境中根据自然语言指令进行导航。此外，数据集还可用于训练指令生成器，生成高质量的导航指令。通过迭代训练，用户可以进一步提升模型的性能，使其在多种下游导航任务中表现出色。数据集的代码和详细信息可在GitHub上获取，用户可以根据需求进行定制和扩展。

背景与挑战

背景概述

VLN-SRDF数据集由上海人工智能实验室、北卡罗来纳大学教堂山分校和Adobe研究院等机构的研究人员共同创建，旨在解决具身智能领域中高质量语言引导导航数据稀缺的问题。该数据集通过自优化数据飞轮（Self-Refining Data Flywheel, SRDF）机制，利用指令生成器和导航器的协同作用，迭代生成高质量的导航指令-轨迹对，无需人工标注。SRDF的核心思想是通过初始数据池训练基础导航器，随后利用导航器筛选数据，进而训练更优的指令生成器，最终形成一个持续改进的数据集。该数据集在经典的R2R测试集上表现优异，首次超越了人类表现，并在多个下游导航任务中展现出强大的泛化能力。

当前挑战

VLN-SRDF数据集的构建面临多重挑战。首先，生成高质量的指令-轨迹对需要强大的指令生成器，但由于高质量训练数据的稀缺性，训练一个能够生成高保真指令的生成器极具挑战。其次，手动校正指令成本高昂且资源密集。此外，指令与轨迹的对齐评估复杂，传统的评估指标难以捕捉多场景中的方向性和语义对齐。SRDF通过引入导航器作为过滤器，利用其路径忠实度评分（如nDTW和SPL）来评估指令质量，避免了手动设置阈值的模糊性，从而解决了这些挑战。

常用场景

经典使用场景

VLN-SRDF数据集的经典使用场景主要集中在视觉与语言导航（VLN）任务中，特别是在训练和评估能够根据自然语言指令在3D环境中导航的智能体。该数据集通过生成高质量的指令-轨迹对，支持智能体在不同环境中的导航学习。其核心应用是通过迭代优化的数据飞轮机制，提升导航器和指令生成器的性能，从而实现更精确的指令理解和路径跟随。

解决学术问题

VLN-SRDF数据集解决了视觉与语言导航领域中长期存在的数据质量问题。传统的VLN任务依赖于人工标注的指令-轨迹对，成本高且难以扩展。VLN-SRDF通过自优化数据飞轮机制，自动生成并筛选高质量的指令-轨迹对，显著提升了数据集的规模和质量。这不仅解决了数据稀缺的问题，还通过迭代优化提升了指令与轨迹的匹配度，推动了智能体在复杂环境中的导航能力。

衍生相关工作

VLN-SRDF数据集的提出催生了一系列相关研究工作。首先，基于该数据集的迭代优化机制，研究者们提出了多种改进的指令生成和导航模型，进一步提升了智能体的导航性能。其次，VLN-SRDF的成功应用激发了对多模态数据集生成和优化的广泛研究，特别是在视觉与语言任务中的数据增强和质量提升。此外，VLN-SRDF的飞轮机制也为其他领域的自监督学习和数据优化提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集