OctoNav-Bench, TBA-CoT

github2025-06-12 更新2025-06-13 收录

下载链接：

https://github.com/buaa-colalab/OctoNav-R1

下载链接

链接失效反馈

官方服务：

资源简介：

OctoNav-Bench是一个专为通用实体导航设计的大规模统一基准，包含400多个不同的3D场景和45k+的注释指令-轨迹对。TBA-CoT数据集是通过Qwen-VL和DeepSeek-R1构建的，捕捉了每个动作决策背后的审慎推理过程。

OctoNav-Bench is a large-scale unified benchmark specifically designed for general entity navigation, encompassing over 400 distinct 3D scenes and 45k+ pairs of annotated instructions and trajectories. The TBA-CoT dataset is constructed using Qwen-VL and DeepSeek-R1, capturing the careful reasoning process behind each action decision.

创建时间：

2025-06-11

原始信息汇总

OctoNav-R1 数据集概述

数据集基本信息

名称: OctoNav-Bench
类型: 通用具身导航基准
相关论文: ArXiv-2506.09839
项目主页: OctoNav
演示视频: Robot Demo

核心特点

OctoNav-Bench

大规模标注
- 包含400+个多样化的3D场景（来自HM3D和Gibson等数据集）
- 提供45k+标注的指令-轨迹对（通过自动标注流程生成）
多模态多能力指令
- 指令采用自由形式描述
- 支持ObjNav、PointNav、ImgNav、Ins-ImgNav和VLN等多种导航能力的任意组合
- 包含文本、视觉（场景/物体级图像）和空间（坐标）多模态输入
TBA-CoT数据集
- 包含思考-行动链式推理（TBA-CoT）数据
- 使用Qwen-VL和DeepSeek-R1构建
- 用于增强代理的推理能力
连续环境支持
- 提供连续仿真环境（非离散或基于图的环境）
- 支持在线强化学习等主动学习方法

OctoNav-R1模型

指令跟随能力
- 支持自由形式、多模态、多能力的指令
- 基于逐步自我中心视觉观察生成低级动作序列
混合训练范式
- 结合强化学习的VLA混合训练范式（HTP）
- 包含Action-/TBA-SFT、Nav-GRPO和在线RL阶段
思考-行动机制
- 利用TBA-CoT数据集进行训练
- 能够同时生成思考过程和动作序列
仿真到现实迁移
- 在物理机器人上部署
- 展示初步的仿真到现实迁移能力（无需真实世界微调）

基准对比

与现有基准相比，OctoNav-Bench在任务数量、多能力混合、多模态支持、TBA标注和环境连续性方面具有优势

搜集汇总

数据集介绍

构建方式

在具身导航研究领域，OctoNav-Bench通过创新的数据构建方法树立了新的标杆。研究团队整合了HM3D和Gibson等主流数据源的400余个三维场景，采用自动化标注流程生成了超过4.5万条指令-轨迹对。特别值得注意的是团队开发的TBA-CoT数据集，其运用Qwen-VL和DeepSeek-R1模型捕捉导航决策中的思维链过程，为智能体推理能力训练提供了珍贵素材。该数据集突破性地实现了多模态指令的融合标注，包含文本、视觉和空间坐标等多种信息形式。

特点

OctoNav-Bench的显著特征体现在其多维度的创新设计上。作为首个支持自由组合式多能力导航的基准数据集，它同时涵盖物体导航、点导航、图像导航等五大核心能力。数据集突破传统离散环境限制，提供连续仿真空间支持强化学习训练。其指令系统采用自由描述形式，每项任务可集成多种导航能力要求，配合丰富的视觉参考图像和空间坐标信息，大幅提升了任务的复杂度和真实性。TBA-CoT子集通过思维链标注，为模型推理过程提供了可解释性研究基础。

使用方法

该数据集的使用遵循层次化研究范式。研究者可基于4.5万条标注数据开展监督学习，利用连续环境特性进行在线强化学习训练。TBA-CoT子集专门用于增强模型的思维链推理能力，可通过对比实验验证不同训练策略的效果。评估阶段需注意数据集设计的多能力混合特性，建议采用细粒度指标分析模型在各导航子任务上的表现。对于实际部署，研究团队已验证OctoNav-R1模型在物理机器人上的迁移能力，为sim-to-real研究提供了可靠基准。

背景与挑战

背景概述

OctoNav-Bench是由北京航空航天大学、新加坡国立大学和北京大学等机构的研究团队于2024年提出的通用具身导航基准数据集。该数据集旨在解决当前导航智能体在复杂多模态指令理解和跨任务泛化能力方面的核心问题，通过整合物体导航(ObjNav)、点导航(PointNav)、图像导航(ImgNav)和视觉语言导航(VLN)等多种能力，推动通用导航智能体的发展。数据集包含来自HM3D和Gibson等平台的400多个3D场景，以及45,000余条多模态指令-轨迹标注对，其规模和创新性为具身导航领域的研究提供了重要支撑。

当前挑战

构建OctoNav-Bench面临双重挑战：在领域问题层面，需突破传统导航任务单一能力限制，解决多模态指令理解、跨任务迁移和连续环境决策等复杂问题；在构建过程层面，实现自动标注管线的设计、多能力指令的合理组合、以及Think-Before-Action推理链数据的采集都面临技术难题。特别是如何确保45,000余条标注数据的质量和多样性，同时支持强化学习所需的连续环境仿真，对数据集构建提出了极高要求。

常用场景

经典使用场景

在智能体导航领域，OctoNav-Bench数据集凭借其大规模标注和多样化指令特性，成为评估通用导航模型性能的黄金标准。该数据集通过融合多模态指令（如物体导航、点导航和视觉语言导航）和连续环境模拟，为研究者提供了验证模型在复杂场景下泛化能力的理想平台。其特有的TBA-CoT子集进一步支持了对智能体决策推理过程的细粒度分析，推动了导航模型从单纯行为模仿向认知决策的范式转变。

衍生相关工作

该数据集催生了导航领域的多项突破性研究。基于TBA-CoT的思维链监督机制，后续工作如NavCoT提出了分层决策架构；其混合训练范式启发了VLA-RL框架的广泛应用。在模型架构方面，OctoNav-R1采用的GRPO算法衍生出适用于部分可观测环境的POP-Nav方法。数据集的多模态特性还促进了跨模态表征学习的发展，例如NavCLIP通过对比学习实现了视觉-语言特征的对齐优化。

数据集最近研究