InterNav dataset

Name: InterNav dataset
Creator: 北京大学·先进制造与机器人学院; 香港中文大学·机械与自动化工程系; 新加坡国立大学·设计与工程学院; 曼彻斯特大学·计算机科学系
Published: 2026-01-07 22:10:46
License: 暂无描述

arXiv2026-01-07 更新2026-01-09 收录

下载链接：

https://coins-internav.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

InterNav数据集由北京大学等机构联合构建，旨在支持交互式导航研究，填补了现有导航数据集中缺乏大规模自我中心视觉数据的空白。该数据集包含多样化的室内场景和物理真实的交互资产，通过Isaac Sim平台生成，为模型训练提供了丰富的环境交互样本。数据内容涵盖机器人导航路径受阻时的物体操作语义信息（如门、障碍物等）及对应物理约束参数，支持技能感知的视觉语言模型训练。其创建过程通过虚拟仿真环境中的交互行为采样和反事实推理标注完成，主要应用于机器人主动环境重构的导航决策，解决传统方法在未知杂乱场景中路径规划受限的问题。

The InterNav dataset, jointly constructed by Peking University and other institutions, is developed to support interactive navigation research, filling the gap resulting from the lack of large-scale egocentric visual data in existing navigation datasets. This dataset includes diverse indoor scenes and physically realistic interactive assets, which are generated through the Isaac Sim platform, providing abundant environmental interaction samples for model training. The data covers semantic information of object manipulation when a robot's navigation path is blocked (such as doors, obstacles, etc.) and corresponding physical constraint parameters, enabling the training of skill-aware visual-language models. Its creation is accomplished via interactive behavior sampling and counterfactual reasoning annotation in virtual simulation environments. It is primarily applied to navigation decision-making for robot active environment reconstruction, solving the problem that traditional methods suffer from limited path planning in unknown cluttered scenes.

提供机构：

北京大学·先进制造与机器人学院; 香港中文大学·机械与自动化工程系; 新加坡国立大学·设计与工程学院; 曼彻斯特大学·计算机科学系

创建时间：

2026-01-07

原始信息汇总

CoINS数据集概述

数据集名称

CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM

数据集简介

CoINS是一个用于交互式导航的分层框架，集成了技能感知的视觉语言模型（VLM）推理和基于强化学习（RL）的技能库。该框架旨在使机器人能够在杂乱场景中主动修改环境以清理路径，而非仅依赖被动避障。

核心方法

模型：微调了一个名为InterNav-VLM的视觉语言模型，该模型将技能可供性和具体约束参数纳入输入上下文，并将其接地到度量尺度的环境表示中。
推理机制：通过在提出的InterNav数据集上进行微调，模型内化了反事实推理的逻辑，从而学习隐式评估物体移除对导航连通性的因果效应，以确定交互的必要性和目标选择。
执行模块：通过强化学习开发了一个全面的技能库，引入了面向可通行性的策略来操纵不同的物体以清理路径。
评估基准：在Isaac Sim中提出了一个系统性基准，用于评估交互式导航的推理和执行方面。

性能表现

在广泛的模拟和真实世界实验中，CoINS优于现有基线，整体成功率提高了17%，在复杂长视野场景中超过80%。
在不同物体类别和机器人实体上表现出强大的泛化能力。

项目状态

项目详情、演示和论文链接将很快发布。

搜集汇总

数据集介绍

构建方式

在机器人交互导航领域，传统数据集往往局限于静态环境，难以支持机器人主动与环境交互以开辟可行路径的研究需求。InterNav数据集通过构建在Isaac Sim仿真平台上的程序化生成流程，系统性地填补了这一空白。该数据集以Matterport3D的真实室内场景布局为基础，注入了多样化的可交互资产，如箱子、桶、椅子和门等，并随机化其尺寸、姿态和纹理材质，以模拟杂乱无章的室内环境。通过自动化采集不同场景布局、物体配置及随机化相机视角下的自我中心视觉数据，该数据集构建了一个大规模、物理逼真的交互导航训练与评估平台。

特点

InterNav数据集的核心特点在于其专注于交互必要性，即环境中的可行路径并非预先存在，机器人必须通过物理交互重构环境才能成功导航。数据集涵盖了从简单房间到复杂跨房间场景的渐进式挑战，并包含了约50种具有高保真视觉纹理和真实物理属性的可交互资产。其构建兼顾了场景多样性、物体多样性及观测视角多样性，旨在最小化仿真与现实间的视觉差异。此外，数据集提供了标准化的评测基准，包含成功率、路径长度等多个关键指标，支持对算法推理与执行能力的系统化评估。

使用方法

该数据集主要服务于交互导航模型的训练与评测。研究人员可利用其大规模自我中心视觉数据对视觉语言模型进行微调，例如训练模型学习反事实推理逻辑，以判断何时需要交互以及选择哪个目标物体进行交互。数据集的训练集部分用于模型参数优化，而其精心设计的测试场景则构成一个综合基准，用于评估算法在未知、杂乱环境中的整体导航性能。通过Isaac Sim的高保真物理引擎与渲染能力，在该数据集上训练的强化学习策略可直接部署，有效弥合了仿真到现实的鸿沟。

背景与挑战

背景概述

InterNav数据集由北京大学、香港中文大学、新加坡国立大学及曼彻斯特大学的研究团队于2026年联合推出，旨在解决机器人交互式导航领域的核心难题。该数据集构建于Isaac Sim仿真平台，聚焦于复杂室内场景中机器人主动与环境交互以开辟可行路径的研究需求。其核心研究问题在于突破传统被动避障导航的局限，赋予机器人通过物理操作（如推开门、移动障碍物）重构环境的能力，从而在初始无通行路径的杂乱场景中实现目标抵达。该数据集通过提供大规模、多视角的自我中心视觉数据，为视觉语言模型在具身智能领域的技能感知与反事实推理训练奠定了关键基础，显著推动了交互导航从几何规划到语义物理融合决策的范式演进。

当前挑战

InterNav数据集致力于解决交互式导航这一核心领域问题，其首要挑战在于如何让机器人具备‘何时交互’与‘与何物交互’的因果推理能力。这要求模型不仅能理解场景的语义，还需内化机器人自身物理技能（如跨越高度、抓取范围）的约束，并对物体移除后的导航连通性进行反事实评估。在数据集构建过程中，研究团队面临多重挑战：一是需在仿真环境中高效生成涵盖多样场景布局、物体类别（如箱子、椅子、门）及机器人视角的大规模高质量视觉问答数据；二是需设计合理的反事实推理逻辑与技能感知接地管道，将抽象的机器人能力参数转化为可训练的视觉语言对齐信号；三是需确保仿真环境中物体交互的物理真实性与视觉保真度，以最小化从仿真到现实应用的性能差距。

常用场景

经典使用场景

在机器人交互式导航研究领域，InterNav数据集为视觉语言模型提供了关键的训练与评估基础。该数据集通过Isaac Sim平台构建了丰富的室内仿真环境，模拟了家庭、办公室等真实场景中常见的障碍物分布。其经典使用场景在于为CoINS等交互式导航框架提供大规模的第一人称视角视觉数据，使模型能够学习在杂乱环境中判断何时需要进行物理交互以开辟可行路径。数据集涵盖多样化的物体类型与场景布局，为模型理解语义信息与物理约束的关联提供了系统化训练资源。

实际应用

在实际机器人部署中，InterNav数据集支撑的系统能够显著提升机器人在复杂环境中的自主导航能力。例如在灾难响应现场或杂乱仓库中，机器人可主动推开挡路的箱子、打开关闭的门户，而非被动绕行或任务失败。数据集训练的模型使机器人能够根据自身技能库（如攀爬、推动）判断交互可行性，从而在家庭服务、工业巡检等场景中实现更高效可靠的移动操作。这种能力对于在非结构化环境中工作的移动操纵机器人具有重要实用价值。

衍生相关工作

围绕InterNav数据集衍生的经典工作主要集中在交互式导航的算法框架创新上。CoINS框架作为典型代表，提出了技能感知视觉语言模型与强化学习技能库的层级化集成方法。后续研究在此基础上扩展了多模态动作生成、长时程推理等方向，例如OmniVLA探索了更广泛的多模态行动生成能力。同时，该数据集也促进了导航可移动物体领域与视觉语言模型研究的交叉融合，为后续基于物理约束的语义推理模型提供了基准测试平台与训练范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集