five

interndata-n1-mini-new

收藏
Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/Yangyihui/interndata-n1-mini-new
下载链接
链接失效反馈
官方服务:
资源简介:
InternData-N1 mini — clip-level short instructions 是一个用于动作世界模型(AWM)训练的导航注释数据集。该数据集从 InternData-N1 的 vln_ce/r2r 子集(mini)中提取,通过轨迹驱动的事件分割和 Gemini 3.1 flash-lite 注释器生成,包含两种提示变体(v3 简洁版和 v4 精确版)。原始 InternData-N1 的片段较长(30-300 步),每个片段仅包含一个覆盖整个轨迹的句子指令。本数据集将每个片段分割为以轨迹关键事件(急转弯、停止、楼梯等)为锚点的短子片段,并为每个子片段标注一条简洁的导航指令。数据集结构包括分割目录(包含可复现的片段边界信息)和两个版本(v3 和 v4)的注释数据,分别提供简洁和精确的指令。数据集适用于机器人学、视频文本到文本转换等任务,特别适用于导航和具身人工智能研究。数据集包含 10,684 个原始片段,分割为 27,814 个子片段,平均每个片段包含 2.60 个子片段。
创建时间:
2026-04-15
原始信息汇总

InternData-N1 mini — clip-level short instructions 数据集概述

基本信息

  • 数据集名称: InternData-N1 mini — clip-level short instructions
  • 语言: 英语 (en)
  • 许可协议: CC BY-NC-SA 4.0
  • 任务类别: 机器人学 (robotics)、视频-文本到文本 (video-text-to-text)
  • 标签: 导航 (navigation)、视觉语言导航 (vln)、具身智能 (embodied-ai)、动作世界模型 (action-world-model)
  • 主页: https://huggingface.co/datasets/Yangyihui/interndata-n1-mini-new

数据集来源与背景

  • 基于 InternRobotics/InternData-N1 中的 vln_ce/r2r 子集(迷你版)生成
  • 通过轨迹驱动的事件分割 + Gemini 3.1 flash-lite 标注器(两种提示变体:v3 简洁版、v4 精准版)产生
  • 旨在用于 动作世界模型 (Action World Model, AWM) 训练

数据集特点

原始 InternData-N1 的 episodes 较长(30–300 步),每条只有一句覆盖整个轨迹的指令。本数据集将其拆分为短的子片段,锚定在轨迹的关键事件(急转弯、停止、楼梯)处,然后使用 VLM 为每个片段标注一条简洁的导航指令。

数据集结构

. ├── segmentation/ # 轨迹驱动的片段边界(可重现,无VLM) │ └── <scene>.jsonl # 每行包含:scene, episode_index, frame_range, event_type, dist_m, yaw_deg, phases ├── v3/ # 简洁提示(中位词数8个) │ ├── meta_clips_vln_ce.json # 训练索引(每个片段一个样本) │ ├── clip_dataset/vln_ce/r2r/<scene>/clips_annotated.jsonl │ ├── vln_ce/traj_data/r2r/<scene>/meta_short/episodes.jsonl # 加载器就绪 │ └── gemini_full_vln_ce_v3.jsonl # 包含原始 Gemini 输出的平面转储 ├── v4/ # 精准提示(中位词数11个,+幅度/位置信息) │ └── ... (相同结构) └── sample_previews_v3/ # 30个分层抽样的 mp4 预览(视频+覆盖层)

数据处理流程

  1. 分割(仅轨迹,确定性):解析 pose 数据,检测关键事件(急转弯 > 30°、掉头 > 120°、停止、楼梯),在事件处放置片段边界,每个片段强制 12–40 步,合并纯旋转邻居。计算每片段阶段时间线(带标签的有序运动段,如 forwardturn_leftforward_and_right)。
  2. 标注(v3 / v4):将片段帧 + 阶段顺序提示输入 Gemini 3.1 flash-lite,模型从阶段列表推断方向/顺序,从帧中选择可见地标,写一句话。输出 JSON,保留 instruction 字段原样。

v3 与 v4 对比

特性 v3 简洁版 v4 精准版
词数中位数 / p95 8 / 11 11 / 13
字段 motionlandmarkinstruction + landmark_position+ magnitude
用途 廉价、短文本先验 高精度消歧
示例 "Turn left and walk toward the dining table." "Turn sharply left and walk toward the large wooden table ahead."

两个版本使用相同的片段分割和轨迹阶段提示生成,可选择其一或两者一起作为数据增强进行训练。

统计信息(v3)

  • 10,684 个 episodes → 27,814 个片段(平均 2.60 片段/episode)
  • 片段长度 p5 / p50 / p95 = 13 / 27 / 39 步
  • 事件分布:sharp_turn 67%、plain 29%、turn_around 4%
  • 两轮重试后 100% 通过率

已知数据问题

  • 场景 ac26ZMwG7aT/episode_000055_0.jpg 是原始数据集中的一个零字节损坏文件,受影响的片段已被丢弃
  • 少数场景在标注前需要手动提取 observation.images.rgb.125cm_30deg 子目录的 tar 包

前提条件

需要基础 InternData-N1-mini vln_ce/r2r 树结构来访问 jpg 和 parquet 姿态文件,可通过以下命令下载: bash huggingface-cli download --repo-type dataset InternRobotics/InternData-N1 vln_ce --local-dir /path/to/InternData-N1-mini

使用方式(通过 InternDataN1Dataset 加载器)

python from data.datasets.interndata_n1 import InternDataN1Dataset

ds = InternDataN1Dataset( meta_path="path/to/v3/meta_clips_vln_ce.json", video_sample_size=256, video_sample_stride=1, video_sample_n_frames=12, meta_subdir="meta_short", meta_override_root="path/to/v3", )

每个样本输出:

  • pixel_values: (n_frames, 3, H, W)
  • text: 短指令
  • trajectory: (n_frames, 3) 每采样帧的 (dx, dy, dyaw)

引用

作为内部 动作世界模型 (AWM) 项目的一部分构建。如果使用此数据集,请同时引用 InternRobotics/InternData-N1。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自InternRobotics/InternData-N1的vln_ce/r2r子集,原始序列包含30至300步的长轨迹,仅配有一条全局指令。为适配动作世界模型(AWM)的训练需求,我们采用基于轨迹驱动的事件分割策略,通过解析位姿数据中拐点、急停、楼梯等关键事件,将原序列切分为12至40步的短片段。随后,利用Gemini 3.1 flash-lite视觉语言模型,结合片段中的帧序列与阶段时间线提示,为每个片段生成一条简洁的导航指令。注释过程产生两种变体:v3(简洁版)和v4(精确版),分别侧重于指令的简短性和方位、位置的精确描述。
特点
数据集的显著特点在于其细粒度的片段级指令与结构化的注释体系。每个片段由轨迹驱动的事件边界精准界定,覆盖了67%的急转弯、4%的调头及29%的平直移动场景,平均每段2.60个片段,充分捕捉了导航中的关键动作过渡。注释指令简洁凝练,v3版本指令中位长度为8词,v4版本为11词,并额外提供地标位置与动作幅度信息。数据集还包含可复现的片段分割文件、阶段时间线标注以及30条分层抽样的视频预览,为多模态学习提供了丰富的上下文支持。
使用方法
数据集通过InternDataN1Dataset加载器便捷使用,用户需指定v3或v4版本的元数据路径(如meta_clips_vln_ce.json),并设置视频采样参数(如sample_size=256, n_frames=12)。加载后,每个样本返回固定帧数的像素张量与对应的短指令文本,同时附带轨迹序列(dx, dy, dyaw)。为获取完整的视觉与姿态数据,用户需预先通过Hugging Face CLI下载基础数据集InternData-N1-mini。数据集支持v3与v4版本的联合训练,可作为数据增强策略提升模型的泛化能力。
背景与挑战
背景概述
在具身智能与视觉语言导航(VLN)领域,长期以来存在着一个核心瓶颈:现有数据集提供的导航指令通常覆盖长达数十至数百步的完整轨迹,这种单一、长程的指令描述难以支撑细粒度动作-世界模型(Action World Model, AWM)的训练与评估。为突破这一局限,由InternRobotics团队于近期创建的InternData-N1-mini子集应运而生。该数据集通过对原始InternData-N1中vln_ce/r2r部分进行片段级分割与重新标注,生成了27,814个基于轨迹关键事件(如急转、停止、上下楼梯)的短指令片段,并利用Gemini 3.1 flash-lite模型以两种提示变体(v3简洁版与v4精准版)完成自动化标注。其核心研究问题在于:如何将长程导航任务解构为语义连贯、动作可控的原子化子任务,从而为AWM提供精准的短指令训练数据。这一工作弥补了VLN数据集在细粒度动作-语言对齐方面的空白,对推动具身智能体在真实环境中的自主导航能力具有显著影响。
当前挑战
该数据集面临的挑战主要体现在两个层面。在领域问题层面,视觉语言导航的固有困难在于指令与连续动作序列之间的模糊对应,传统单句长指令往往包含多个隐含的子目标,使得动作-世界模型难以准确捕捉指令与动作的瞬时关联;InternData-N1-mini通过将轨迹分割为12-40步的短片段并逐段标注,有效缓解了动作定位的歧义性,但如何确保分割点(如急转、停止)在语义上自然且不破坏导航连续性仍是关键难题。在构建过程中,技术挑战尤为突出:原始数据中约0.1%的帧文件存在损坏(如ac26ZMwG7aT场景的零字节jpg),需手工剔除受影响片段;少数场景的压缩包需人工干预解压才能获取图像数据;此外,自动标注阶段依赖Gemini模型对关键事件(如‘sharp_turn’占比67%)的解读,但部分情况下VLM生成的指令可能因相位提示的简化而忽略动作幅度与空间位置的细微差异,v4版本虽增加位置与量级字段进行补强,却仍未完全消除歧义。
常用场景
经典使用场景
在具身智能与视觉语言导航(VLN)研究领域,该数据集的核心应用场景在于为Action World Model(AWM)提供细粒度的任务引导。不同于传统数据集仅提供长程、单一的轨迹级指令,该数据将每个完整的机器人导航情节自动分割为以关键事件(如急转弯、停止、爬梯)为边界的短片段,并为每个片段配以简洁、意向明确的导航指令。这种“剪辑级”的精细标注结构,使得模型能够在仿真环境中实现与人类类似的阶段性行为规划,极大增强了对复杂环境理解与局部动作决策的关联能力。
衍生相关工作
该数据集作为InternData-N1的精细化衍生,催生了一系列重要的研究工作。首先,基于其“轨迹事件自动分割+大语言模型标注”的双阶段流水线,研究者可将其复用到其他VLN数据集(如Room-to-Room或Habitat环境),实现大规模、低成本的细粒度指令自动生成。其次,数据集中的“阶段时间线”标签(如forward、turn_left等)为探索结构化动作预测模型提供了天然的监督信号,催生了如Phase-Conditioned Policy Learning等新范式。最后,其短指令集被广泛应用于对比学习与跨模态预训练任务,推动了视觉-文本-动作三模态表征对齐的学术前沿进展。
数据集最近研究
最新研究方向
在具身智能与机器人导航领域,视觉语言导航(VLN)正从全轨迹单句指令向细粒度子片段理解演进。该数据集针对传统长程导航任务中指令与动作解耦不足的痛点,创新性地提出基于轨迹关键事件的视频片段分割与VLM标注范式,为构建动作世界模型(AWM)提供了短时序、高密度语言-动作对齐的基座。其双提示策略(v3简洁/v4精确)兼顾了训练效率与空间语义分辨率,有望推动具身体在复杂真实场景中的实时路径推理与上下文敏感决策。这一细粒度数据生产范式对下一代家庭服务机器人、自主物流等具身应用具有基础性支撑价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作