interndata-n1-mini-new
收藏InternData-N1 mini — clip-level short instructions 数据集概述
基本信息
- 数据集名称: InternData-N1 mini — clip-level short instructions
- 语言: 英语 (en)
- 许可协议: CC BY-NC-SA 4.0
- 任务类别: 机器人学 (robotics)、视频-文本到文本 (video-text-to-text)
- 标签: 导航 (navigation)、视觉语言导航 (vln)、具身智能 (embodied-ai)、动作世界模型 (action-world-model)
- 主页: https://huggingface.co/datasets/Yangyihui/interndata-n1-mini-new
数据集来源与背景
- 基于 InternRobotics/InternData-N1 中的
vln_ce/r2r子集(迷你版)生成 - 通过轨迹驱动的事件分割 + Gemini 3.1 flash-lite 标注器(两种提示变体:v3 简洁版、v4 精准版)产生
- 旨在用于 动作世界模型 (Action World Model, AWM) 训练
数据集特点
原始 InternData-N1 的 episodes 较长(30–300 步),每条只有一句覆盖整个轨迹的指令。本数据集将其拆分为短的子片段,锚定在轨迹的关键事件(急转弯、停止、楼梯)处,然后使用 VLM 为每个片段标注一条简洁的导航指令。
数据集结构
. ├── segmentation/ # 轨迹驱动的片段边界(可重现,无VLM) │ └── <scene>.jsonl # 每行包含:scene, episode_index, frame_range, event_type, dist_m, yaw_deg, phases ├── v3/ # 简洁提示(中位词数8个) │ ├── meta_clips_vln_ce.json # 训练索引(每个片段一个样本) │ ├── clip_dataset/vln_ce/r2r/<scene>/clips_annotated.jsonl │ ├── vln_ce/traj_data/r2r/<scene>/meta_short/episodes.jsonl # 加载器就绪 │ └── gemini_full_vln_ce_v3.jsonl # 包含原始 Gemini 输出的平面转储 ├── v4/ # 精准提示(中位词数11个,+幅度/位置信息) │ └── ... (相同结构) └── sample_previews_v3/ # 30个分层抽样的 mp4 预览(视频+覆盖层)
数据处理流程
- 分割(仅轨迹,确定性):解析 pose 数据,检测关键事件(急转弯 > 30°、掉头 > 120°、停止、楼梯),在事件处放置片段边界,每个片段强制 12–40 步,合并纯旋转邻居。计算每片段阶段时间线(带标签的有序运动段,如
forward、turn_left、forward_and_right)。 - 标注(v3 / v4):将片段帧 + 阶段顺序提示输入 Gemini 3.1 flash-lite,模型从阶段列表推断方向/顺序,从帧中选择可见地标,写一句话。输出 JSON,保留
instruction字段原样。
v3 与 v4 对比
| 特性 | v3 简洁版 | v4 精准版 |
|---|---|---|
| 词数中位数 / p95 | 8 / 11 | 11 / 13 |
| 字段 | motion、landmark、instruction |
+ landmark_position、+ magnitude |
| 用途 | 廉价、短文本先验 | 高精度消歧 |
| 示例 | "Turn left and walk toward the dining table." | "Turn sharply left and walk toward the large wooden table ahead." |
两个版本使用相同的片段分割和轨迹阶段提示生成,可选择其一或两者一起作为数据增强进行训练。
统计信息(v3)
- 10,684 个 episodes → 27,814 个片段(平均 2.60 片段/episode)
- 片段长度 p5 / p50 / p95 = 13 / 27 / 39 步
- 事件分布:
sharp_turn67%、plain29%、turn_around4% - 两轮重试后 100% 通过率
已知数据问题
- 场景
ac26ZMwG7aT/episode_000055_0.jpg是原始数据集中的一个零字节损坏文件,受影响的片段已被丢弃 - 少数场景在标注前需要手动提取
observation.images.rgb.125cm_30deg子目录的 tar 包
前提条件
需要基础 InternData-N1-mini vln_ce/r2r 树结构来访问 jpg 和 parquet 姿态文件,可通过以下命令下载:
bash
huggingface-cli download --repo-type dataset
InternRobotics/InternData-N1 vln_ce --local-dir /path/to/InternData-N1-mini
使用方式(通过 InternDataN1Dataset 加载器)
python from data.datasets.interndata_n1 import InternDataN1Dataset
ds = InternDataN1Dataset( meta_path="path/to/v3/meta_clips_vln_ce.json", video_sample_size=256, video_sample_stride=1, video_sample_n_frames=12, meta_subdir="meta_short", meta_override_root="path/to/v3", )
每个样本输出:
pixel_values:(n_frames, 3, H, W)text: 短指令trajectory:(n_frames, 3)每采样帧的(dx, dy, dyaw)
引用
作为内部 动作世界模型 (AWM) 项目的一部分构建。如果使用此数据集,请同时引用 InternRobotics/InternData-N1。




