INSIGHT-dataset

Hugging Face2025-09-03 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/paragon7060/INSIGHT-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与机器人相关的数据集，包含机器人手臂的运动和感知信息，如末端执行器的位置和姿态、关节速度、图像数据等。数据集共有20个片段，1462帧，1个任务，120个视频。数据集的结构包括多种观察数据，如手腕和肩膀的图像和深度图，以及动作、奖励等信息。数据集的许可是Apache-2.0。

创建时间：

2025-09-03

原始信息汇总

INSIGHT 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
机器人类型: 弗兰卡熊猫 (franka_panda)

数据集规模

总任务数: 1
总片段数: 20
总帧数: 1462
总视频数: 120
数据块数: 1
数据块大小: 1000
帧率: 10 FPS
数据分割: 训练集 (0:20)

数据结构

数据文件格式: Parquet

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

观测数据

状态观测 (observation.state):

数据类型: float32
形状: [34]
包含34维状态向量，包括末端执行器位置、四元数姿态、关节角度、关节速度、关节力矩等

图像观测:

手腕摄像头 (observation.images.wrist): RGB视频，480×640分辨率，3通道
手腕语义摄像头 (observation.images.wrist_semantic): 语义视频，480×640分辨率，3通道
左肩摄像头 (observation.images.left_shoulder): RGB视频，480×640分辨率，3通道
左肩语义摄像头 (observation.images.left_shoulder_semantic): 语义视频，480×640分辨率，3通道
右肩摄像头 (observation.images.right_shoulder): RGB视频，480×640分辨率，3通道
右肩语义摄像头 (observation.images.right_shoulder_semantic): 语义视频，480×640分辨率，3通道

深度观测:

手腕深度 (observation.wrist_depth): 深度图，480×640分辨率，1通道
左肩深度 (observation.left_shoulder_depth): 深度图，480×640分辨率，1通道
右肩深度 (observation.right_shoulder_depth): 深度图，480×640分辨率，1通道

动作数据

动作 (action): 8维浮点向量，包含7个关节角度和1个夹爪控制
技能ID (action.skill_id): 整型技能标识符

元数据

奖励 (next.reward): 单值奖励信号
时间戳 (timestamp): 时间标记
帧索引 (frame_index): 帧编号
片段索引 (episode_index): 片段编号
任务索引 (task_index): 任务编号
索引 (index): 全局索引

技术规格

代码库版本: v2.1
视频编码: AV1
像素格式: yuv420p
音频: 无

创建信息

使用 LeRobot 框架创建 (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，INSIGHT数据集依托LeRobot框架构建，采用Franka Panda机器人平台进行数据采集。该数据集通过记录20个完整任务片段，以10帧每秒的频率捕获多维观测数据，包括机器人末端执行器的位置、姿态、关节角度及视觉信息。数据以分块形式存储于Parquet格式文件中，确保高效存取与处理，共计1462帧数据覆盖单一任务场景。

特点

INSIGHT数据集的特点体现在其丰富的多模态观测维度，涵盖34维浮点型状态向量及多视角视觉数据，包括腕部、左肩与右肩的RGB与语义分割图像，并辅以深度信息。动作空间包含8维连续控制指令，支持技能标识与奖励信号标注。数据集结构清晰，提供时间戳与帧索引，适用于模仿学习与强化学习算法的训练与验证。

使用方法

该数据集的使用需通过LeRobot代码库加载，支持直接读取Parquet文件或调用标准数据接口。用户可依据任务索引与帧索引提取特定片段，整合视觉与状态观测作为模型输入，动作向量作为监督信号。数据集默认划分为训练集，适用于端到端策略学习、行为克隆或离线强化学习任务，兼容主流机器人学习框架。

背景与挑战

背景概述

INSIGHT数据集作为机器人学习领域的重要数据资源，由HuggingFace的LeRobot项目团队构建，专注于Franka Panda机械臂的多模态操作任务。该数据集通过集成高维状态观测与多视角视觉信息，旨在推动机器人模仿学习与强化学习算法的发展。其设计融合了关节状态、末端执行器位姿及深度视觉数据，为复杂环境下的机器人技能泛化研究提供了实证基础。

当前挑战

该数据集致力于解决机器人操作任务中的高维感知与动作规划问题，其核心挑战在于多模态数据的时序对齐与跨模态表征学习。构建过程中需克服大规模机械臂数据采集的硬件同步难题，确保多摄像头与深度传感器的数据一致性，同时需处理高维动作空间中的技能分割与奖励稀疏性问题，这对数据标注与质量管控提出了极高要求。

常用场景

经典使用场景

在机器人学习领域，INSIGHT数据集为模仿学习与强化学习算法提供了丰富的多模态训练资源。该数据集通过Franka Panda机械臂采集的20个完整任务序列，包含1462帧高精度运动轨迹与多视角视觉数据，典型应用于端到端策略网络的训练与验证。研究者可利用其同步记录的本体状态、关节运动参数及六路视觉信息，构建从感知到动作的映射模型，显著提升机器人复杂操作任务的学习效率。

衍生相关工作

基于该数据集的多模态特性，衍生出多项机器人感知与控制融合的经典研究。包括基于时空注意力的操作策略网络、多视图视觉特征融合架构以及技能自监督学习方法。这些工作显著提升了机器人对复杂任务的泛化能力，推动了LeRobot生态系统中行为克隆、离线强化学习等方向的技术发展，为开源机器人学习社区提供了重要基准。

数据集最近研究