CapNav

Name: CapNav
Creator: 华盛顿大学; 加州大学圣克鲁兹分校
Published: 2026-02-21 02:46:27
License: 暂无描述

arXiv2026-02-21 更新2026-02-24 收录

下载链接：

https://github.com/makeabilitylab/CapNav

下载链接

链接失效反馈

官方服务：

资源简介：

CapNav是由华盛顿大学团队构建的能力条件导航基准数据集，旨在评估视觉语言模型在复杂室内环境中考虑不同代理移动约束时的导航性能。该数据集包含45个真实3D扫描室内场景、473个导航任务和2365个问答对，总计5075条可遍历性标注。数据通过人工标注3D场景导航图和代理移动能力参数构建，涵盖五种典型人类和机器人代理配置。该数据集主要应用于具身智能和辅助机器人领域，解决现有导航系统忽视代理物理约束的关键问题，推动能力感知的智能导航技术发展。

CapNav is a capability-conditioned navigation benchmark dataset developed by the University of Washington team, which aims to evaluate the navigation performance of vision-language models when considering different agent movement constraints in complex indoor environments. This dataset contains 45 real 3D-scanned indoor scenes, 473 navigation tasks, and 2365 question-answer pairs, with a total of 5075 traversability annotations. The dataset is constructed via manual annotation of 3D scene navigation graphs and agent mobility parameters, covering five typical human and robotic agent configurations. This dataset is mainly applied in the fields of embodied intelligence and assistive robotics, addressing the key issue that existing navigation systems neglect agent physical constraints, and promoting the development of capability-aware intelligent navigation technologies.

提供机构：

华盛顿大学; 加州大学圣克鲁兹分校

创建时间：

2026-02-21

搜集汇总

数据集介绍

构建方式

在室内导航研究领域，针对不同物理能力的智能体进行路径规划评估的需求日益凸显。CapNav数据集的构建基于真实三维室内扫描环境，通过手动录制游览视频并构建语义化的导航图结构。研究团队从HM3D和Matterport3D等公开数据源中筛选出45个室内场景，利用Habitat模拟器生成以人类视角高度拍摄的漫游视频。每个场景的导航图由人工标注关键空间节点及其连接关系，随后借助Gemini 2.5 Pro模型生成自然语言导航任务，最终通过交互式标注界面对五种典型智能体进行逐边可通行性标注，形成包含2365个导航任务和5075条标注的数据集合。

特点

该数据集的核心特征体现在其针对能力条件导航的系统性设计。数据集涵盖五类具有代表性的智能体原型，包括无障碍成年人、轮椅使用者、人形机器人、扫地机器人和四足机器人，每类智能体均通过物理尺寸、垂直跨越能力和环境交互能力等结构化参数进行描述。数据集中包含多样化的真实室内障碍类型，如楼梯、狭窄通道、门槛高度差异和转向空间不足等场景，能够全面评估视觉语言模型在几何约束下的推理能力。评估体系采用四维度量标准，综合考察任务可行性、路径有效性、路线可通行性和推理质量，为模型能力提供多角度量化分析。

使用方法

使用该数据集时，研究者需向视觉语言模型输入由空间视频、导航图节点、智能体能力描述和导航任务组成的四元组。模型需要基于视频内容理解空间布局，结合智能体的物理约束条件，判断从起点到终点的导航可行性。对于可行任务需输出节点序列表示的有效路径，对于不可行任务则需提供基于能力限制的推理解释。评估过程采用标准化提示模板，支持不同帧率采样和思维链模式的对比实验，研究者可通过计算复合CapNav分数系统分析模型在各类智能体和障碍场景下的性能表现，进而诊断模型在空间维度推理和视觉整合方面的具体局限。

背景与挑战

背景概述

随着视觉-语言模型在视觉接地与空间推理领域取得显著进展，其在视觉-语言导航任务中的应用为机器人平台和人类用户提供了新的导航决策可能性。然而，现实世界的导航行为本质上受到智能体移动能力的制约，例如扫地机器人无法跨越楼梯，而四足机器人则可以。为此，华盛顿大学的研究团队于2026年提出了CapNav基准数据集，旨在系统评估视觉-语言模型在给定智能体特定物理与操作能力下，于复杂室内空间中进行导航规划的有效性。该数据集构建于45个真实室内场景之上，包含473项导航任务与2365个问答对，并定义了五类代表性的人与机器人智能体剖面，核心研究问题聚焦于模型如何依据能力约束进行可行性预测、路径规划与空间推理。CapNav的推出填补了现有导航基准在能力条件化评估方面的空白，为具身人工智能与辅助系统的安全部署提供了关键评测工具。

当前挑战

CapNav数据集致力于解决能力条件化室内导航这一领域核心问题，其首要挑战在于要求视觉-语言模型必须精确融合智能体的物理维度、移动限制与环境交互能力，以生成符合特定约束的可行路径。这超越了传统的、与具体化身体无关的目标到达任务，对模型的多模态理解与几何推理能力提出了更高要求。在数据集构建过程中，研究团队面临的主要挑战包括：如何为多样化的智能体剖面（如轮椅用户、人形机器人）在复杂、多楼层的真实场景中，人工标注精确的、边缘级的可通行性标签；以及如何设计能够支持多解路径评估的图结构空间表示，以捕捉导航任务的多元性。此外，生成高质量、视觉接地的自然语言导航任务，并确保其与场景视频及图节点的一致性，也是构建过程中的关键难点。

常用场景

经典使用场景

在具身人工智能领域，评估视觉语言模型在复杂室内环境中的导航能力已成为关键研究方向。CapNav数据集通过引入能力条件约束，为模型提供了经典的多模态导航评估场景。该数据集要求模型结合室内场景视频、导航图节点、智能体移动能力描述及具体导航任务，综合判断路径可行性并生成合理路线。这一场景模拟了真实世界中轮椅用户、人形机器人等不同智能体在多层建筑内的移动决策过程，有效检验了模型在空间推理与能力适配方面的综合性能。

衍生相关工作

CapNav的发布推动了能力感知导航领域的系列创新研究。基于其评估框架，后续工作如VAMOS提出了分层视觉语言动作模型，通过显式建模智能体能力来实现可调控的导航规划。NaviTrace则利用该数据集的标注范式，开发了基于真实图像的轨迹预测评估方法。同时，多篇研究借鉴CapNav的障碍物分类体系，针对楼梯识别、窄道检测等具体问题开发了增强型空间推理模块，逐步形成了以能力约束为核心的导航评估方法论体系。

数据集最近研究