InternData-N1

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/InternRobotics/InternData-N1

下载链接

链接失效反馈

官方服务：

资源简介：

InternData-N1是一个整合了VLN-CE、VLN-PE和VLN-N1三个子集的视觉导航数据集，采用LeRobot格式，包含3000多个场景资源，支持不同机器人化身和视点的多样化数据，以及高质量的数据生成和过滤。

创建时间：

2025-07-24

原始信息汇总

InternData-N1 数据集概述

许可证

许可证类型：Apache-2.0

关键特性

统一的不同基准格式
- 将VLN-CE、VLN-PE和VLN-N1三个子集整合为主流的LeRobot (v2.1)格式，便于在不同系统和多样化的基准中使用。
涵盖不同体现、任务和场景的多样化数据
- 基于3,000多个场景资产，提供丰富的随机化（包括不同机器人体现和视角），并通过LLM生成常见导航任务的重新表述指令。
通过有效生成和过滤确保高质量
- 采用有效的数据生成策略（生成平滑且安全的轨迹）和严格的过滤（排除参考对象非常少的样本），确保数据质量。

数据集结构

场景数据资产

scene_data/ ├── mp3d_pe/ ├── mp3d/ │ ├── scans │ └── tasks ├── n1_eval_scenes/ │ ├── Materials │ ├── SkyTexture │ ├── InternUtopia-Home │ └── InternUtopia-Commercial

scene_data/mp3d_pe/: 用于VLN-PE基准的改进版Matterport3D场景资产。
scene_data/mp3d/scans/: 用于生成N1轨迹数据的基础Matterport3D扫描。
scene_data/mp3d/tasks/: 用于VLN-CE基准的Matterport3D场景资产。
scene_data/n1_eval_scenes/: 用于视觉导航（VN）基准的场景资产。

核心数据集结构

InternData-N1/ ├── vln_pe/ │ ├── raw_data/ │ │ ├── train/ │ │ ├── val_seen/ │ │ │ └── val_seen.json.gz │ │ └── val_unseen/ │ │ └── val_unseen.json.gz │ └── traj_data/ │ ├── <scene_datasets> / │ ... ├── <scene> / │ ... ├── <traj_id> / │ ... ├── data/ │ │ └── chunk-000 │ │ └── episode_000000.parquet │ ├── meta/ │ │ ├── episodes_stats.jsonl │ │ ├── episodes.jsonl │ │ ├── info.json │ │ └── tasks.jsonl #instruction_text │ └── videos │ └── chunk-000 │ ├── observation.images.depth │ └── observation.images.rgb ├── vln_ce/ │ ├── raw_data/ │ │ ├── train/ │ │ ├── val_seen/ │ │ │ └── val_seen.json.gz │ │ └── val_unseen/ │ │ └── val_unseen.json.gz │ └── traj_data/ └── vln_n1/ └── traj_data/

raw_data/: 包含每个基准的原始开放数据源，如定义任务、导航目标和数据集拆分的JSON文件。
traj_data/: 包含以LeRobot (v2.1)格式处理的核心数据集。

数据集统计

数据集	样本数	关键特性	数据位置
VLN-PE	8,000+	物理现实环境	`videos/observation.images.{rgb,depth}`<br>`meta/tasks.jsonl`
VLN-CE	250,000+	连续环境	`videos/observation.images.rgb`<br>`meta/episodes.jsonl`
VLN-N1	660K+指令<br>210K+视频	用于InternVLA-N1的合成数据	`data/`<br>`videos/`<br>`meta/trajectories.json`

引用

BibTeX @misc{interndata_n1, title={InternData-N1 Dataset}, author={InternData-N1 Dataset contributors}, howpublished={url{https://huggingface.co/datasets/InternRobotics/InternData-N1}}, year={2025} }

搜集汇总

数据集介绍

构建方式

InternData-N1数据集通过整合VLN-CE、VLN-PE和VLN-N1三个子集，采用主流的LeRobot (v2.1)格式进行统一构建，确保了数据在不同系统和多样化基准测试中的便捷使用。数据生成过程中，基于3000多个场景资产，通过广泛的随机化处理覆盖了多种机器人体现形式和视角，并利用大语言模型对常见导航任务的指令进行重新表述。高质量的数据生成策略（如生成平滑且安全的轨迹）和严格的过滤机制（如排除参考对象过少的样本）进一步确保了数据集的可靠性。

特点

InternData-N1数据集以其多样性和高质量著称。其多样性体现在覆盖了多种机器人体现形式、任务类型和场景，通过3000多个场景资产和广泛的随机化处理实现。数据集还通过大语言模型重新生成指令，进一步丰富了任务的表达形式。在质量方面，数据集采用了高效的数据生成策略和严格的筛选标准，确保了轨迹的平滑性和安全性，从而为模型训练提供了可靠的数据支持。例如，基于该数据集训练的InternVLA-N1模型展现了先进的性能表现。

使用方法

InternData-N1数据集的使用方法简便高效。用户可通过Hugging Face平台直接下载完整数据集，或选择仅下载文件指针以节省存储空间。数据集的核心结构分为三个主要部分：vln_pe、vln_ce和vln_n1，分别对应不同的基准测试和任务类型。每个部分包含原始数据（raw_data）和经过处理的轨迹数据（traj_data），后者以LeRobot (v2.1)格式存储，便于直接应用于模型训练和评估。用户还可根据需要引用数据集，以支持相关研究工作。

背景与挑战

背景概述

InternData-N1数据集由InternRobotics团队于2025年推出，旨在推动具身智能与视觉语言导航领域的研究。该数据集整合了VLN-CE、VLN-PE和VLN-N1三大子集，采用统一的LeRobot v2.1格式，覆盖3000余个场景资产，通过多机器人本体随机化视角与LLM生成指令重构，为导航任务提供多样化数据支持。其高质量轨迹生成与严格筛选机制，使得基于该数据集训练的InternVLA-N1等模型达到前沿性能，显著提升了复杂环境中智能体的语义理解与路径规划能力。

当前挑战

构建InternData-N1面临双重挑战：在领域层面，需解决视觉语言导航中环境异构性导致的泛化瓶颈，以及连续空间动作决策的时序建模难题；在数据构建过程中，大规模场景资产的多模态对齐、轨迹平滑度与安全性的平衡、以及LLM生成指令与真实场景的语义一致性验证，均需耗费大量计算资源与人工校验成本。此外，将Matterport3D等异构原始数据转化为标准化LeRobot格式时，需克服坐标系转换与多传感器数据同步的技术复杂性。

常用场景

经典使用场景

在视觉与语言导航（VLN）领域，InternData-N1数据集通过整合VLN-CE、VLN-PE和VLN-N1三大子集，为研究者提供了统一的LeRobot格式数据。其经典使用场景包括训练和评估多模态导航模型，特别是在复杂环境中实现机器人自主导航任务。数据集中的多样化场景资产和随机化视角为模型提供了丰富的训练样本，显著提升了导航任务的泛化能力。

实际应用

在实际应用中，InternData-N1数据集被广泛用于开发智能家居机器人、仓储物流自动化系统以及虚拟现实导航平台。其丰富的场景数据和重新生成的导航指令使得机器人能够在真实环境中高效执行复杂任务，例如室内物品检索和环境探索。数据集的多样化特性也为商业应用中的适应性导航提供了有力支持。

衍生相关工作

基于InternData-N1数据集，研究者们开发了多项经典工作，例如InternVLA-N1模型在视觉语言导航任务中的卓越表现。该数据集还启发了对多模态导航算法的深入研究，包括基于强化学习的路径规划和自然语言指令理解。其标准化格式进一步促进了不同研究团队之间的协作与成果共享。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集