INSIGHT-dataset
收藏Hugging Face2025-09-03 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/paragon7060/INSIGHT-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个与机器人相关的数据集,包含机器人手臂的运动和感知信息,如末端执行器的位置和姿态、关节速度、图像数据等。数据集共有20个片段,1462帧,1个任务,120个视频。数据集的结构包括多种观察数据,如手腕和肩膀的图像和深度图,以及动作、奖励等信息。数据集的许可是Apache-2.0。
创建时间:
2025-09-03
原始信息汇总
INSIGHT 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
- 机器人类型: 弗兰卡熊猫 (franka_panda)
数据集规模
- 总任务数: 1
- 总片段数: 20
- 总帧数: 1462
- 总视频数: 120
- 数据块数: 1
- 数据块大小: 1000
- 帧率: 10 FPS
- 数据分割: 训练集 (0:20)
数据结构
数据文件格式: Parquet
- 数据路径:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频路径:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
观测数据
状态观测 (observation.state):
- 数据类型: float32
- 形状: [34]
- 包含34维状态向量,包括末端执行器位置、四元数姿态、关节角度、关节速度、关节力矩等
图像观测:
- 手腕摄像头 (observation.images.wrist): RGB视频,480×640分辨率,3通道
- 手腕语义摄像头 (observation.images.wrist_semantic): 语义视频,480×640分辨率,3通道
- 左肩摄像头 (observation.images.left_shoulder): RGB视频,480×640分辨率,3通道
- 左肩语义摄像头 (observation.images.left_shoulder_semantic): 语义视频,480×640分辨率,3通道
- 右肩摄像头 (observation.images.right_shoulder): RGB视频,480×640分辨率,3通道
- 右肩语义摄像头 (observation.images.right_shoulder_semantic): 语义视频,480×640分辨率,3通道
深度观测:
- 手腕深度 (observation.wrist_depth): 深度图,480×640分辨率,1通道
- 左肩深度 (observation.left_shoulder_depth): 深度图,480×640分辨率,1通道
- 右肩深度 (observation.right_shoulder_depth): 深度图,480×640分辨率,1通道
动作数据
- 动作 (action): 8维浮点向量,包含7个关节角度和1个夹爪控制
- 技能ID (action.skill_id): 整型技能标识符
元数据
- 奖励 (next.reward): 单值奖励信号
- 时间戳 (timestamp): 时间标记
- 帧索引 (frame_index): 帧编号
- 片段索引 (episode_index): 片段编号
- 任务索引 (task_index): 任务编号
- 索引 (index): 全局索引
技术规格
- 代码库版本: v2.1
- 视频编码: AV1
- 像素格式: yuv420p
- 音频: 无
创建信息
使用 LeRobot 框架创建 (https://github.com/huggingface/lerobot)
搜集汇总
数据集介绍

构建方式
在机器人技术领域,INSIGHT数据集依托LeRobot框架构建,采用Franka Panda机器人平台进行数据采集。该数据集通过记录20个完整任务片段,以10帧每秒的频率捕获多维观测数据,包括机器人末端执行器的位置、姿态、关节角度及视觉信息。数据以分块形式存储于Parquet格式文件中,确保高效存取与处理,共计1462帧数据覆盖单一任务场景。
特点
INSIGHT数据集的特点体现在其丰富的多模态观测维度,涵盖34维浮点型状态向量及多视角视觉数据,包括腕部、左肩与右肩的RGB与语义分割图像,并辅以深度信息。动作空间包含8维连续控制指令,支持技能标识与奖励信号标注。数据集结构清晰,提供时间戳与帧索引,适用于模仿学习与强化学习算法的训练与验证。
使用方法
该数据集的使用需通过LeRobot代码库加载,支持直接读取Parquet文件或调用标准数据接口。用户可依据任务索引与帧索引提取特定片段,整合视觉与状态观测作为模型输入,动作向量作为监督信号。数据集默认划分为训练集,适用于端到端策略学习、行为克隆或离线强化学习任务,兼容主流机器人学习框架。
背景与挑战
背景概述
INSIGHT数据集作为机器人学习领域的重要数据资源,由HuggingFace的LeRobot项目团队构建,专注于Franka Panda机械臂的多模态操作任务。该数据集通过集成高维状态观测与多视角视觉信息,旨在推动机器人模仿学习与强化学习算法的发展。其设计融合了关节状态、末端执行器位姿及深度视觉数据,为复杂环境下的机器人技能泛化研究提供了实证基础。
当前挑战
该数据集致力于解决机器人操作任务中的高维感知与动作规划问题,其核心挑战在于多模态数据的时序对齐与跨模态表征学习。构建过程中需克服大规模机械臂数据采集的硬件同步难题,确保多摄像头与深度传感器的数据一致性,同时需处理高维动作空间中的技能分割与奖励稀疏性问题,这对数据标注与质量管控提出了极高要求。
常用场景
经典使用场景
在机器人学习领域,INSIGHT数据集为模仿学习与强化学习算法提供了丰富的多模态训练资源。该数据集通过Franka Panda机械臂采集的20个完整任务序列,包含1462帧高精度运动轨迹与多视角视觉数据,典型应用于端到端策略网络的训练与验证。研究者可利用其同步记录的本体状态、关节运动参数及六路视觉信息,构建从感知到动作的映射模型,显著提升机器人复杂操作任务的学习效率。
衍生相关工作
基于该数据集的多模态特性,衍生出多项机器人感知与控制融合的经典研究。包括基于时空注意力的操作策略网络、多视图视觉特征融合架构以及技能自监督学习方法。这些工作显著提升了机器人对复杂任务的泛化能力,推动了LeRobot生态系统中行为克隆、离线强化学习等方向的技术发展,为开源机器人学习社区提供了重要基准。
数据集最近研究
最新研究方向
在机器人学习领域,INSIGHT数据集凭借其多模态感知与动作序列的精细标注,正成为模仿学习与强化学习融合研究的重要基石。该数据集通过Franka Panda机械臂采集的34维状态观测数据、多视角视觉信息及深度图像,为具身智能研究提供了高精度时空对齐的演示数据。当前研究热点集中于跨模态表征学习与技能泛化,学者们利用其结构化动作序列探索分层强化学习框架下的技能组合策略。随着端到端机器人控制范式的兴起,该数据集在推动视觉-动作映射模型的发展中展现出关键价值,为机器人自主决策系统的可解释性与适应性研究提供了实证基础。
以上内容由遇见数据集搜集并总结生成



