so101_rgb_cube_300_task3_part_4_of_6

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/avanturist/so101_rgb_cube_300_task3_part_4_of_6

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，包含51个剧集，共16153帧，1个任务。数据集的结构包括动作、观测状态、顶部图像、腕部图像等特征，以及时间戳和帧索引等元数据。数据集遵循Apache-2.0许可。

创建时间：

2025-11-29

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot

数据集规模

总任务数: 1
总情节数: 51
总帧数: 16153
数据块大小: 1000
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 200 MB

数据结构

数据格式: Parquet文件
数据路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分: 训练集（全部51个情节）

特征描述

动作特征

名称: action
数据类型: float32
维度: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测:
- 名称: observation.state
- 数据类型: float32
- 维度: [6]
- 关节位置: 与动作特征相同
图像观测:
- 顶部摄像头:
  - 名称: observation.images.top
  - 数据类型: 视频
  - 分辨率: 480×640×3
  - 编码: AV1
  - 像素格式: yuv420p
  - 非深度图
- 腕部摄像头:
  - 名称: observation.images.wrist
  - 数据类型: 视频
  - 分辨率: 480×640×3
  - 编码: AV1
  - 像素格式: yuv420p
  - 非深度图

索引特征

时间戳: float32 [1]
帧索引: int64 [1]
情节索引: int64 [1]
数据索引: int64 [1]
任务索引: int64 [1]

技术规格

代码库版本: v3.0
机器人类型: so101_follower
视频无音频

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据采集的精确性与系统性至关重要。该数据集借助LeRobot平台构建，通过记录51个完整任务片段，累计16153帧数据，以30帧每秒的速率捕捉机械臂的六自由度关节位置及双视角视觉信息。数据以分块存储形式组织，每块包含1000个数据点，采用Parquet格式高效压缩存储，确保了数据的完整性与可访问性。

特点

本数据集在机器人操作任务中展现出多模态融合的显著特性。其核心特征包含六维关节空间动作指令、同步的关节状态观测，以及顶置与腕部双摄像头采集的RGB视频流。视频数据以480x640分辨率的三通道格式保存，采用AV1编码压缩，在保证视觉细节的同时优化存储效率。时序索引与任务标识符的完整记录，为时间序列分析与任务泛化研究提供了结构化支持。

使用方法

针对机器人模仿学习与行为克隆的研究需求，该数据集可通过标准数据加载流程进行调用。研究者可依据元数据中定义的数据路径规范，按分块索引读取Parquet文件，同步解析关节控制指令与多视角视觉观测。训练集涵盖全部51个任务片段，支持端到端策略学习、感知-动作映射建模等典型应用场景，为机器人技能迁移提供基准数据支撑。

背景与挑战

背景概述

机器人学习领域近年来对大规模交互数据的需求日益增长，so101_rgb_cube_300_task3_part_4_of_6数据集应运而生。该数据集由LeRobot研究平台构建，采用Apache 2.0开源协议，专门面向机器人操作任务设计。数据集包含51个完整交互序列，涵盖16153帧多模态数据，通过顶部与腕部双视角RGB视频流记录机械臂的六自由度关节运动轨迹。这类数据集为模仿学习与行为克隆算法提供了关键训练素材，推动机器人自主操作能力向真实场景迁移。

当前挑战

在机器人操作任务领域，该数据集需解决高维连续动作空间与视觉感知的协同建模难题。构建过程中面临多传感器时序对齐的技术挑战，包括30fps视频流与关节位置数据的精确同步。数据采集环节需保持机械臂运动轨迹的平滑性与任务完成度，同时应对双视角视觉数据存储带来的大规模存储压力，200MB视频文件与100MB结构化数据的混合格式对分布式处理架构提出更高要求。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过多视角视觉观测与关节状态数据，为模仿学习算法提供了丰富的训练素材。其包含的机械臂关节位置指令与顶部、腕部摄像头视频流，能够有效支持端到端策略网络的训练过程，使机器人能够从视觉输入中直接推断出动作序列。

解决学术问题

该数据集主要解决了机器人领域中的视觉运动策略泛化问题，通过提供真实环境下的操作演示数据，降低了模拟到真实世界的迁移难度。其结构化存储的时序动作-观测对，为研究连续控制中的状态表征学习、多模态信息融合等核心问题提供了基准数据支撑。

衍生相关工作

基于此类机器人操作数据集，学界已衍生出多项重要研究。包括基于时空注意力机制的模仿学习框架、多视角视觉特征对齐方法，以及结合强化学习的混合训练范式。这些工作通过利用数据集中丰富的多模态时序信息，持续推动着机器人技能学习领域的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集