OctoNav-Bench

Name: OctoNav-Bench
Creator: 北京航空航天大学
Published: 2025-06-11 23:15:17
License: 暂无描述

arXiv2025-06-11 更新2025-06-13 收录

下载链接：

https://buaa-colalab.github.io/OctoNav

下载链接

链接失效反馈

官方服务：

资源简介：

OctoNav-Bench是一个大规模的统一基准，专为通用的具身导航而设计。它包含400多个来自广泛使用的HM3D和Gibson等3D场景，并提供45,000多个通过自动标注流程注解的指令-轨迹对，支持大规模训练。指令是自由形式的描述，每个指令包含多个导航能力，并且是多模态的，结合文本、视觉和空间描述。此外，还构建了Think-Before-Action Chain-of-Thought (TBA-CoT)数据集，用于捕捉每个动作决策背后的深思熟虑推理过程。OctoNav-Bench提供了连续的模拟环境，支持主动学习如在线强化学习。该数据集旨在解决具身导航领域的问题，通过模拟现实环境中的导航任务，帮助开发能够理解和执行复杂指令的智能体。

OctoNav-Bench is a large-scale unified benchmark designed for general embodied navigation. It includes over 400 3D scenes from widely adopted datasets such as HM3D and Gibson, and provides more than 45,000 instruction-trajectory pairs annotated through an automatic annotation pipeline, enabling large-scale training. The instructions are free-form descriptions, each containing multiple navigation capabilities, and are multimodal, combining textual, visual and spatial descriptions. In addition, a Think-Before-Action Chain-of-Thought (TBA-CoT) dataset has been constructed to capture the deliberate reasoning process behind each action decision. OctoNav-Bench offers a continuous simulated environment that supports active learning paradigms like online reinforcement learning. This benchmark aims to resolve challenges in the field of embodied navigation, assisting in the development of agents capable of understanding and executing complex instructions by simulating navigation tasks in realistic environments.

提供机构：

北京航空航天大学

创建时间：

2025-06-11

原始信息汇总

OctoNav数据集概述

数据集基本信息

数据集名称：OctoNav-Bench
开发团队：Beihang University, National University of Singapore, Peking University, Zhongguancun Academy
主要贡献者：Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu
对应论文代码：提供（未显示具体链接）

数据集特点

规模与构成
- 大规模基准测试集OctoNav-Bench
- 包含多样化的指令-轨迹对
- 精心构建的TBA-CoT数据集（Think-Before-Action）
环境特性
- 连续环境构建
- 通过自动标注流程生成
指令多样性
- 自由形式指令
- 支持任意模态组合
- 支持多能力复合指令

方法创新

OctoNav-R1方法
- 基于MLLMs构建的VLA-type模型
- 仅依赖2D视觉观察生成底层动作
- 采用混合训练范式(HTP)：
  1. Action-/TBA-SFT阶段
  2. Nav-GPRO阶段
  3. Online RL阶段
- 引入TBA-SFT和Nav-GPRO设计，提升模型推理能力

性能表现

在OctoNav-Bench上全面超越现有方法
展示初步的sim2real泛化能力
提供细粒度的导航能力准确性分析

应用展示

真实世界机器人演示案例：
- 基于坐标的导航指令
- 多模态复合指令（视觉参考+物体导航）
- 多步骤导航指令

搜集汇总

数据集介绍

构建方式

OctoNav-Bench数据集的构建采用了自动化标注流程，通过精心设计的模板生成、轨迹采样和指令实例化方法，实现了大规模、多样化的指令-轨迹对标注。研究团队首先从HM3D、Gibson等公开3D场景库中选取400+室内环境作为场景池，通过定制化轨迹采样器生成符合真实导航规律的连续轨迹。针对多模态指令的生成，开发了基于GPT的模板生成系统，支持任意组合的ObjNav、PointNav等五种导航能力，并采用视觉-语言大模型自动实例化图像目标、坐标点等占位符。特别构建的Think-Before-Action (TBA-CoT)数据集通过Qwen-VL和DeepSeek-R1模型自动生成动作背后的推理链，形成10k+条包含思维过程的高质量数据。

特点

OctoNav-Bench作为首个面向通用导航智能体的大规模基准测试，具有四大核心特征：1) 自由形式的多模态指令支持，单条指令可同时包含坐标、视觉参考图像和语言描述；2) 多能力复合任务设计，支持ObjNav、VLN等五种导航能力的任意组合；3) 连续环境仿真，突破传统离散导航的局限，支持更真实的强化学习训练；4) 创新的TBA-CoT标注，提供动作决策的完整推理链条。数据集覆盖400+场景和45k+指令-轨迹对，在任务复杂度、模态融合和推理深度三个维度建立了新的标准。

使用方法

使用OctoNav-Bench需通过Habitat仿真平台加载连续3D环境，支持三种典型应用模式：1) 模仿学习训练时，可加载指令-轨迹对进行监督学习，或利用TBA-CoT数据培养模型的思维推理能力；2) 强化学习训练时，通过提供的连续动作空间和定制化奖励函数进行在线策略优化；3) 评估阶段采用分层指标系统，包括基础成功率(SR)、路径加权成功率(SPL)和宽松成功率(OSR)，支持对复合任务中各子能力的细粒度评估。数据集提供标准化的API接口，可无缝衔接PyTorch等主流框架，特别适配VLA类模型的端到端训练。

背景与挑战

背景概述

OctoNav-Bench是由北京航空航天大学、新加坡国立大学和北京大学的研究团队于2025年提出的一个面向通用导航智能体的大规模基准测试数据集。该数据集旨在解决现有导航研究中任务定义过于碎片化的问题，通过整合物体导航(ObjNav)、点导航(PointNav)、图像导航(ImgNav)、实例图像导航(Ins-ImgNav)和视觉语言导航(VLN)等多种能力，构建支持自由形式、多模态、多能力指令的统一评估框架。数据集包含400多个3D场景和45,000多条标注的指令-轨迹对，并创新性地引入了Think-Before-Action思维链(TBA-CoT)数据，为导航智能体的推理能力提供了监督信号。OctoNav-Bench的提出标志着导航研究从单一任务专业化向通用智能体的重要转变。

当前挑战

OctoNav-Bench面临的核心挑战体现在两个方面：领域问题层面，现有导航方法难以处理自由形式的复合指令，特别是在多模态输入和多任务能力协同方面的泛化能力不足；数据构建层面，自动生成高质量的多模态指令-轨迹对齐数据存在技术难度，确保TBA-CoT数据的逻辑连贯性需要复杂的标注流程。具体挑战包括：1)设计能够同时处理坐标、视觉和语言模态的统一表征方法；2)开发支持多种导航能力组合的自动标注流水线；3)在连续环境中构建符合真实物理规律的轨迹数据；4)确保思维链数据既能反映合理推理过程又与真实动作决策保持一致。

常用场景

经典使用场景

OctoNav-Bench数据集在通用导航智能体研究中扮演了核心角色，其多模态指令与复合能力特性使其成为评估模型跨任务泛化能力的黄金标准。该数据集通过融合视觉目标导航（ImgNav）、实例图像导航（Ins-ImgNav）、坐标点导航（PointNav）和视觉语言导航（VLN）等任务，支持研究者构建能够理解自由形式指令的智能体。典型应用包括在连续3D环境中测试模型对‘先定位沙发再前往(x,y,z)坐标’等复合指令的执行能力，其400+场景与45k+指令-轨迹对为模拟真实世界复杂性提供了充分条件。

实际应用

在实际机器人部署中，OctoNav-Bench训练的模型已成功应用于Unitree GO2等移动平台。通过RealSense D455相机实时获取RGB观测，智能体可执行‘穿过冰箱旁的门并左转寻找衣柜’等复杂指令，初步验证了从仿真到现实的迁移能力。在智能家居、仓储物流等场景，这种支持多模态交互的导航系统显著提升了人机协作效率，例如同时处理语音指令、图纸导航和物品定位的复合需求。

衍生相关工作

该数据集催生了系列突破性工作，包括VLA架构的OctoNav-R1及其混合训练范式（HTP）。基于TBA-CoT标注的Nav-GRPO算法将强化学习引入视觉语言模型微调，启发了后续Video-R1等跨模态推理研究。在Benchmark层面，其构建方法被GOAT-Bench等后续工作借鉴，而连续环境设计则影响了Habitat 3.0的仿真器开发。相关技术已延伸至无人机导航领域，形成通用具身智能的重要技术脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集