INSIGHT-guide-nd-2

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/paragon7060/INSIGHT-guide-nd-2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个机器人技术任务的数据集，包含了43个剧集，共1966帧，1个任务，258个视频。数据集使用franka_panda型机器人收集数据，并以parquet格式存储。每个剧集包含多种类型的观察数据，如机械臂末端的位置和姿态、关节速度、图像数据等，以及动作、奖励等信息。

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人学
标签: LeRobot
机器人类型: franka_panda
代码库版本: v2.1

数据集规模

总任务数: 1
总片段数: 43
总帧数: 1966
总视频数: 258
总块数: 1
块大小: 1000
帧率: 10 fps
数据分割: 训练集（0:43）

数据结构

数据文件格式: Parquet
数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

观测数据

observation.state:
- 数据类型: float32
- 形状: [34]
- 特征名称: ee_x, ee_y, ee_z, ee_qw, ee_qx, ee_qy, ee_qz, j1, j2, j3, j4, j5, j6, j7, gripper_1, gripper_2, v_j1, v_j2, v_j3, v_j4, v_j5, v_j6, v_j7, v_gripper_1, v_gripper_2, p_a1, p_a2, p_a3, p_a4, p_a5, p_a6, p_a7, p_gripper_1, p_gripper_2
图像观测 (包含以下6个视角):
- observation.images.wrist
- observation.images.wrist_semantic
- observation.images.left_shoulder
- observation.images.left_shoulder_semantic
- observation.images.right_shoulder
- observation.images.right_shoulder_semantic
- 数据类型: video
- 形状: [3, 480, 640]
- 视频信息: 高度480px, 宽度640px, 编码格式av1, 像素格式yuv420p, 非深度图, 帧率10fps, 3通道, 无音频

动作数据

action:
- 数据类型: float32
- 形状: [8]
- 特征名称: j1, j2, j3, j4, j5, j6, j7, gripper

其他数据

next.reward: float32, 形状[1]
action.skill_id: int32, 形状[1]
timestamp: float32, 形状[1]
frame_index: int64, 形状[1]
episode_index: int64, 形状[1]
index: int64, 形状[1]
task_index: int64, 形状[1]

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人操作研究领域，INSIGHT-guide-nd-2数据集通过LeRobot平台系统采集，采用Franka Panda机械臂执行单一任务场景下的操作演示。数据以10Hz频率同步记录多维观测信号与动作指令，包含43条完整轨迹的1966帧样本，以Parquet格式分块存储并配备高精度时间戳索引，确保时空一致性。

使用方法

研究者可通过HuggingFace数据加载工具直接读取Parquet文件，利用episode_index与frame_index构建时序样本。典型应用流程包括：提取observation字段的多模态观测数据，结合action字段进行行为克隆训练；或借助reward信号设计强化学习奖励函数。视频数据可通过指定video_path字段解码，适用于视觉-运动协同建模任务。

背景与挑战

背景概述

机器人学习领域近年来对高质量示范数据的需求日益增长，INSIGHT-guide-nd-2数据集应运而生。该数据集由HuggingFace的LeRobot项目构建，专注于Franka Panda机械臂的操作任务。其核心研究问题在于通过多模态传感器数据（包括关节状态、末端执行器位姿及多视角视觉信息）来推动模仿学习与强化学习算法的发展。数据集包含43个完整 episodes 和1966帧数据，以10Hz频率采集，为机器人技能迁移与泛化研究提供了重要支撑。

当前挑战

该数据集致力于解决机器人操作任务中的动作预测与环境感知问题，其挑战在于高维连续动作空间与多模态观测的对齐。构建过程中面临多传感器时序同步、大规模视频数据压缩存储，以及真实物理系统噪声干扰等难题。语义分割视频流的引入虽然丰富了环境表征，但同时也增加了数据标注复杂度和计算负荷，对算法的实时处理能力提出了更高要求。

常用场景

经典使用场景

在机器人学习领域，INSIGHT-guide-nd-2数据集为模仿学习与强化学习算法提供了丰富的训练素材。该数据集通过Franka Panda机械臂采集的多视角视觉数据与关节状态信息，完整记录了43个任务执行序列，涵盖末端执行器位姿、关节角度及夹爪状态等34维观测空间。研究者可基于该数据集训练端到端的策略网络，使机器人能够从原始像素输入直接生成连续控制指令，实现视觉伺服控制与技能泛化。

解决学术问题

该数据集有效解决了机器人操作任务中示范数据稀缺性与异构模态融合的学术难题。通过提供同步的多视角RGB图像、语义分割图及精确的关节状态数据，支持研究者探索视觉-动作映射关系、跨模态表征学习等核心问题。其包含的1966帧高精度控制序列为行为克隆、逆强化学习等算法提供了验证基础，显著推动了具身智能中感知-控制一体化研究的发展。

实际应用

工业自动化场景中，该数据集可直接应用于精密装配、物料分拣等任务的机器人技能迁移。通过解析腕部摄像头与肩部摄像头的多视角视觉流，系统能够实时识别工件位姿并生成适配的控制策略。语义分割通道进一步支持场景理解，使机械臂在复杂环境中实现基于语义的抓取规划，为柔性制造生产线提供即插即用的视觉控制解决方案。

数据集最近研究