INSIGHT-guide-1

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/paragon7060/INSIGHT-guide-1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，包含机器人的状态、图像以及动作等信息。数据集共有65个剧集，3091个帧，390个视频，分为1个任务。数据集使用Apache-2.0许可。

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
配置名称: default
数据文件: data//.parquet

数据集结构

总情节数: 65
总帧数: 3091
总任务数: 1
总视频数: 390
总块数: 1
块大小: 1000
帧率: 10 FPS
分割: 训练集（0:65）

数据特征

观察数据

状态观察:
- 数据类型: float32
- 形状: [34]
- 包含: 末端执行器位置、四元数、关节角度、关节速度、关节力矩、夹爪状态
图像观察:
- 腕部摄像头: 3通道, 480×640分辨率
- 腕部语义摄像头: 3通道, 480×640分辨率
- 左肩摄像头: 3通道, 480×640分辨率
- 左肩语义摄像头: 3通道, 480×640分辨率
- 右肩摄像头: 3通道, 480×640分辨率
- 右肩语义摄像头: 3通道, 480×640分辨率

动作数据

数据类型: float32
形状: [8]
包含: 7个关节控制量和1个夹爪控制量

其他数据

奖励: float32, 形状[1]
技能ID: int32, 形状[1]
时间戳: float32, 形状[1]
帧索引: int64, 形状[1]
情节索引: int64, 形状[1]
索引: int64, 形状[1]
任务索引: int64, 形状[1]

技术信息

代码库版本: v2.1
机器人类型: franka_panda
数据路径格式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径格式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

搜集汇总

数据集介绍

构建方式

在机器人学习领域，INSIGHT-guide-1数据集依托LeRobot框架构建，采用Franka Panda机械臂平台进行数据采集。该数据集通过记录65个完整任务片段，以10fps的帧率捕获多视角视觉与状态数据，涵盖末端执行器坐标、关节角度及速度等34维状态向量，并以标准化parquet格式存储，确保数据的高效访问与处理。

特点

数据集呈现多模态特性，融合六路高清视频流（包括腕部与肩部视角的原始及语义分割图像）与精确的机器人状态信息。其独特之处在于同步提供动作指令、奖励信号及技能标识符，支持端到端策略学习研究。每帧数据附带时间戳与索引标记，为时序建模与强化学习算法提供结构化基础。

使用方法

研究者可通过加载parquet文件直接获取状态观测值与动作序列，或结合视频路径调用视觉模态数据。数据集默认划分为训练集，适用于行为克隆、逆强化学习等任务。使用前需配置相应机器人仿真环境，通过LeRobot代码库可复现数据采集流程并扩展新任务。

背景与挑战

背景概述

机器人学习领域近年来在模仿学习与强化学习融合方面取得显著进展，INSIGHT-guide-1数据集作为LeRobot项目的重要组成部分，专注于Franka Panda机械臂的多模态操作任务。该数据集通过整合关节状态、视觉观测与动作指令，为机器人技能学习提供真实环境下的演示数据，其结构化设计支持端到端策略学习与跨任务泛化能力研究。

当前挑战

该数据集需解决机器人操作任务中高维状态空间与动作空间的精确映射挑战，包括多视角视觉信息与本体感知的时序对齐问题。构建过程中面临多传感器数据同步采集、大规模视频数据压缩存储，以及实际操作场景下动态干扰因素导致的标注一致性维护等工程技术难题。

常用场景

经典使用场景

在机器人学习领域，INSIGHT-guide-1数据集为模仿学习与强化学习算法提供了丰富的多模态训练资源。该数据集通过Franka Panda机械臂采集的65条完整轨迹，包含关节状态、末端执行器位姿及多视角视觉数据，典型应用于行为克隆和逆强化学习算法的训练与验证。研究者可利用其高精度动作序列与同步视觉观测，构建从感知到控制的端到端策略模型。

解决学术问题

该数据集有效解决了机器人技能迁移中的示范数据稀缺性问题，为学术界提供了标准化的动作-状态对应关系基准。其包含的语义分割视觉通道与多传感器融合特征，显著提升了模型在动态环境中的泛化能力。通过提供精确的时间对齐多模态数据，它支撑了跨模态表示学习、时序动作预测等核心研究方向，推动了机器人自主决策理论的发展。

衍生相关工作

基于该数据集的多模态特性，研究者开发了时空注意力机制的行为克隆框架，显著提升了长时序动作预测精度。其语义视觉通道催生了多个视觉-动作联合嵌入模型，如基于Transformer的多视图特征融合网络。在元强化学习领域，该数据集支撑了跨任务技能迁移算法的验证，推动了机器人终身学习理论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集