Nav-AdaCoT-2.9M
收藏arXiv2026-01-13 更新2026-01-15 收录
下载链接:
https://wsakobe.github.io/VLingNav-web/
下载链接
链接失效反馈官方服务:
资源简介:
Nav-AdaCoT-2.9M是由字节跳动种子与北京大学联合构建的目前最大规模具身导航推理标注数据集,包含290万条数据。该数据集创新性地引入了自适应思维链(AdaCoT)标注,指导模型动态决策何时启动推理以及关注哪些关键信息。其数据来源于多模态导航任务中的视觉-语言交互记录,通过专家标注和强化学习阶段增强数据质量。数据集旨在解决复杂长时序导航中推理能力不足和记忆缺失的问题,支撑VLA模型在动态环境中的自适应规划与跨任务迁移学习。
Nav-AdaCoT-2.9M is the largest currently available embodied navigation reasoning annotation dataset jointly developed by ByteDance Seed and Peking University, consisting of 2.9 million data entries. This dataset innovatively introduces adaptive Chain-of-Thought (AdaCoT) annotations, which guide models to dynamically decide when to initiate reasoning and which key information to focus on. Its data is sourced from visual-language interaction logs in multimodal navigation tasks, and the data quality is enhanced through expert annotation and reinforcement learning stages. The dataset is designed to address the issues of insufficient reasoning capability and memory loss in complex long-horizon navigation tasks, and support adaptive planning and cross-task transfer learning of Vision-Language-Action (VLA) models in dynamic environments.
提供机构:
字节跳动种子; 北京大学; 中关村研究院
创建时间:
2026-01-13
原始信息汇总
VLingNav 数据集概述
数据集名称
VLingNav
核心简介
VLingNav 是一个用于具身导航的视觉-语言-动作模型,其核心是基于语言驱动的认知。它旨在解决现有模型在复杂、长视野导航任务中缺乏显式推理能力和持久记忆的问题。
关键方法与组件
- 自适应思维链机制:受人类认知双过程理论启发,该机制能动态地在必要时触发显式推理,使智能体能够在快速、直观的执行与缓慢、审慎的规划之间流畅切换。
- 视觉辅助语言记忆模块:该模块构建了一个持久的跨模态语义记忆,使智能体能够回忆过去的观察,以避免重复探索,并推断动态环境的移动趋势。
训练数据集
- 名称:Nav-AdaCoT-2.9M
- 规模:290万条逐步自适应思维链轨迹
- 描述:这是迄今为止最大的带有推理标注的具身导航数据集,富含自适应思维链标注,能够引导出一种既能调整“何时思考”也能调整“思考什么”的推理范式。
- 构建方法:利用 Habitat 模拟器收集广泛的模拟导航数据,并开发了自动化的思维链标注流程。
训练流程
- 数据收集:构建并使用 Nav-AdaCoT-2.9M 数据集。
- 在线专家引导后训练:为了解决离线模仿学习的局限性,并更好地将视觉语言模型的高级表征与闭环机器人连续动作对齐,引入了在线后训练阶段。智能体主动与模拟环境交互以收集新鲜的、同策略轨迹。策略随后通过结合结果驱动优化和专家引导监督的混合目标函数进行更新。
性能与评估
- 在广泛的具身导航基准测试中实现了最先进的性能。
- 能够以零样本方式迁移到真实世界的机器人平台,成功执行实际的导航任务,包括先前未见和未经训练的任务,并展现出强大的跨领域和跨任务泛化能力。
- 评估任务包括:物体目标导航、图像目标导航、视觉跟踪。
相关资源
- 论文标题:VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory
- 预印本地址:https://arxiv.org/abs/2601.08665
- 作者机构:ByteDance Seed, Peking University, Zhongguancun Academy
搜集汇总
数据集介绍

构建方式
在具身导航领域,高质量数据集的构建对于推动模型认知能力的发展至关重要。Nav-AdaCoT-2.9M的构建整合了多个权威基准,包括HM3D ObjNav、MP3D ObjNav、HM3D OVON、EVT-Bench以及HM3D Instance ImageNav,通过采集最短路径轨迹与人类演示数据,形成了涵盖物体目标导航、视觉跟踪与图像目标导航的多任务数据集。其核心创新在于引入了自主自适应思维链标注流程,利用大规模视觉语言模型对观测、指令、历史记忆及专家轨迹进行复合推理,生成结构化的思维链与场景摘要,并通过两阶段过滤机制确保标注的逻辑一致性与决策准确性,最终构建出包含290万步轨迹与47.2万条思维链标注的大规模数据集。
特点
该数据集在具身导航数据生态中展现出鲜明的特色。其规模空前,覆盖718个多样化场景,是目前最大的带推理标注的导航数据集。多任务集成是一大亮点,首次将物体目标导航、视觉跟踪与图像目标导航三大任务统一于同一框架,促进了跨任务的知识迁移与泛化。标注模态丰富,不仅提供轨迹级的连续动作监督,更创新性地引入了自适应思维链标注,教导模型动态决策何时进行推理以及思考什么内容,标注比例约为16.4%。这种设计使数据集超越了传统的动作-观察映射,形成了紧密耦合感知、语言与决策的认知闭环,为训练具备显式推理与持久记忆能力的模型奠定了坚实基础。
使用方法
Nav-AdaCoT-2.9M数据集主要服务于视觉-语言-动作模型的训练与评估。在模型训练流程中,它首先作为监督微调阶段的核心数据,与开放世界视频数据协同训练,使模型初步掌握结构化推理与多任务导航技能。其自适应思维链标注引导模型学会在简单场景快速反应,在复杂决策点触发深度思考。进一步地,数据集生成的专家轨迹可用于在线后训练的专家引导阶段,与智能体自主交互收集的轨迹共同构成混合缓冲区,通过结合模仿学习与强化学习的复合目标函数优化策略,帮助模型突破模仿学习的局限,获得更鲁棒、更高效的探索行为。该数据集支持对模型在长时程推理、跨任务泛化及零样本迁移等关键能力上进行系统性评测。
背景与挑战
背景概述
Nav-AdaCoT-2.9M数据集由字节跳动Seed团队与北京大学等机构的研究人员于2026年创建,旨在推动具身导航领域的发展。该数据集的核心研究问题在于解决现有视觉-语言-动作模型在复杂长时程导航任务中缺乏显式推理能力与持久记忆机制的局限。通过引入自适应思维链标注,数据集为模型提供了动态触发推理的范式,使其能够根据任务复杂度灵活切换快速执行与深思熟虑的规划模式。这一创新不仅显著提升了导航智能体的决策质量与效率,还为具身人工智能在开放世界环境中的可靠部署奠定了数据基础,对机器人导航、跨模态学习以及认知架构设计等领域产生了深远影响。
当前挑战
Nav-AdaCoT-2.9M数据集致力于解决具身导航中智能体在动态复杂环境下进行长时程规划与跨任务泛化的核心挑战。具体而言,数据集构建过程面临多重困难:首先,生成高质量的自适应思维链标注需要克服大规模多模态数据对齐的复杂性,确保推理内容与视觉观察、语言指令及专家轨迹之间的语义一致性;其次,整合多样化的导航任务(如目标导航、视觉跟踪与图像目标导航)要求设计统一的标注框架,以支持模型在单一架构中学习通用导航先验。此外,数据集的规模与多样性必须平衡仿真环境与真实世界之间的领域差异,以促进模型的零样本泛化能力,这涉及对视觉特征压缩、时间一致性建模以及跨场景语义记忆等技术的深入探索。
常用场景
经典使用场景
在具身导航研究领域,Nav-AdaCoT-2.9M数据集为训练和评估视觉-语言-动作模型提供了核心支撑。该数据集整合了物体目标导航、具身视觉跟踪和图像目标导航三大任务,其最经典的应用场景在于支持模型进行自适应思维链推理训练。研究者利用数据集内丰富的推理标注,引导模型在导航过程中动态判断何时需要启动显式推理,从而模拟人类在陌生环境中的认知决策过程,有效平衡了导航效率与决策精度。
实际应用
该数据集的实际应用价值体现在推动服务机器人、工业巡检等现实场景的智能化导航。基于Nav-AdaCoT-2.9M训练的模型,如VLingNav,已成功以零样本方式迁移至真实四足机器人平台,在家庭、办公室及户外环境中执行物体搜寻、人员跟踪等任务。数据集赋予的推理与记忆能力,使机器人能在动态复杂环境中进行语义理解与长期规划,大幅降低了仿真到现实的迁移成本,为自主移动机器人的实际部署提供了可靠技术基础。
衍生相关工作
Nav-AdaCoT-2.9M的发布催生了一系列围绕自适应推理与语言记忆的经典研究工作。以VLingNav为代表,其核心架构启发了后续模型如TrackVLA++在具身视觉跟踪任务中进一步融合推理与记忆模块。同时,该数据集支持的多任务协同训练范式,促进了Uni-NaVid、NavFoM等统一导航模型的发展,推动了领域从单一任务优化向通用导航智能体的演进。这些衍生工作共同深化了对语言驱动认知在具身导航中作用机制的理解。
以上内容由遇见数据集搜集并总结生成



