INSIGHT-guide-color-1

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/paragon7060/INSIGHT-guide-color-1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人（具体为franka_panda型号）操作的数据集，包含32个剧集，共计1863帧，1个任务，192个视频和1个数据块。数据集的帧率为10fps，所有的数据块大小均为1000。数据集包含了多种特征，如机械臂末端执行器的位置和姿态、各个关节的速度和位置、 gripper 的状态等，并且提供了不同视角（手腕、左肩、右肩）的视频和语义分割信息。

This is a robotic manipulation dataset targeting the Franka Panda robot. It comprises 32 episodes, totaling 1863 frames, 1 distinct task, 192 videos, and 1 data chunk. The dataset operates at a frame rate of 10 FPS, with each data chunk having a uniform size of 1000. The dataset includes a variety of kinematic and sensory features, such as the position and orientation of the robotic arm's end-effector, the position and velocity of each joint, as well as the state of the gripper. Additionally, it provides video footage captured from three different viewpoints (wrist, left shoulder, right shoulder) along with corresponding semantic segmentation annotations.

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

名称: paragon7060/INSIGHT-guide-color-1
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总情节数: 32
总帧数: 1863
总视频数: 192
总块数: 1
块大小: 1000
帧率: 10 FPS
分割: 训练集（0:32）

数据特征

观察数据

状态观察:
- 数据类型: float32
- 形状: [34]
- 包含末端执行器位置、四元数、关节角度、关节速度、关节力矩等信息
图像观察:
- 腕部摄像头: 3通道，480×640分辨率
- 腕部语义摄像头: 3通道，480×640分辨率
- 左肩摄像头: 3通道，480×640分辨率
- 左肩语义摄像头: 3通道，480×640分辨率
- 右肩摄像头: 3通道，480×640分辨率
- 右肩语义摄像头: 3通道，480×640分辨率
- 所有视频均使用AV1编解码器，无音频

动作数据

数据类型: float32
形状: [8]
包含: 7个关节控制量和1个夹爪控制量

其他数据

奖励: float32，形状[1]
技能ID: int32，形状[1]
时间戳: float32，形状[1]
帧索引: int64，形状[1]
情节索引: int64，形状[1]
索引: int64，形状[1]
任务索引: int64，形状[1]

技术信息

机器人类型: Franka Panda
代码库版本: v2.1
数据格式: Parquet
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，INSIGHT-guide-color-1数据集通过LeRobot框架系统性地构建。该数据集依托Franka Panda机械臂平台，采集了32个完整操作序列，总计1863帧数据，以10fps的采样频率记录多视角视觉信息与关节状态。数据以分块parquet格式存储，涵盖末端执行器位姿、关节角度、速度及夹爪状态等多模态观测，并同步记录动作指令与奖励信号，体现了精细的时序对齐与结构化设计。

特点

该数据集的核心特点在于其丰富的多模态表征能力，不仅提供高达480×640分辨率的三通道彩色视频，还包含语义分割视觉流。观测特征覆盖34维状态向量，精确刻画了机械臂的空间坐标、四元数朝向、关节角及动力学参数。动作空间以8维连续向量表征关节控制与夹爪操作，辅以技能标识与奖励标签，为模仿学习与强化学习算法提供了高维度、结构化的训练样本。

使用方法

研究者可通过HuggingFace平台获取该数据集，利用parquet数据加载工具直接读取结构化字段。每个数据块包含索引化的帧序列，支持按任务索引或时间戳进行切片访问。视觉数据以AV1编码视频流存储，需配合视频解码库提取像素信息。该数据集适用于端到端策略学习、行为克隆及跨模态表征研究，建议结合LeRobot代码库进行数据预处理与仿真环境集成。

背景与挑战

背景概述

机器人操作数据集INSIGHT-guide-color-1由HuggingFace的LeRobot项目构建，专注于Franka Panda机械臂的多模态操作任务。该数据集通过整合关节状态、末端执行器位姿及多视角视觉信息，旨在推动机器人模仿学习与强化学习算法的发展。其结构化设计支持从原始传感器数据到高层动作策略的端到端训练，为复杂环境下的机器人自主操作提供关键数据支撑。

当前挑战

该数据集需解决机器人操作中高维状态空间与动作空间的精确映射问题，涉及多传感器时序数据的同步与对齐挑战。构建过程中面临多视角视频数据存储优化、语义标注一致性保障，以及真实物理系统噪声干扰下数据纯净度的维护难题。此外，技能动作的层次化标注与奖励信号的稀疏性亦增加了数据集构建的复杂性。

常用场景

经典使用场景

在机器人学习领域，INSIGHT-guide-color-1数据集为模仿学习与强化学习算法提供了丰富的多模态训练资源。其经典使用场景集中于机械臂操作任务的视觉-动作映射研究，通过腕部摄像头与肩部视角的同步视频流，结合34维状态观测数据和8维动作空间，为算法提供端到端的行为克隆与策略优化基础。

衍生相关工作

基于该数据集衍生的经典工作主要集中在分层强化学习框架与视觉运动策略网络架构的创新。研究者利用其多视角视频流与状态动作对开发了基于Transformer的跨模态注意力模型，以及结合技能先验的元学习方法，这些成果显著提升了机械臂在未知环境中的适应性与操作精度。

数据集最近研究