so-arm101-grab-cube

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/Darkiche/so-arm101-grab-cube

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个与机器人学相关的数据集，包含机器人执行任务时的动作、状态、图像以及时间戳等信息。数据集仅包含训练数据，格式为Parquet文件。数据集中的特征包括机器人各部分的位姿信息（如肩部、肘部、手腕和夹爪的位置）以及机器人前视摄像头捕获的图像。图像分辨率为720x1280，共有3个通道，视频编码为av1格式，每秒30帧，没有音频。

This is a robotics-oriented dataset that encompasses robot actions, states, images, and timestamps collected during task execution. The dataset exclusively contains training data, formatted as Parquet files. The features within the dataset comprise pose information for all components of the robot (e.g., positions of the shoulder, elbow, wrist, and gripper) alongside images captured by the robot's front-facing camera. These images have a resolution of 720×1280 with 3 color channels, utilize AV1 video encoding, operate at 30 frames per second, and lack audio tracks.

创建时间：

2025-10-25

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
创建工具: LeRobot

数据集规模

总任务数: 1
总回合数: 30
总帧数: 16949
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 500 MB

数据结构

数据文件

格式: Parquet
存储路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
分块大小: 1000
训练集划分: 0-30回合

视频文件

格式: MP4
分辨率: 1280×720
编码: AV1
存储路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

动作特征

名称: action
数据类型: float32
维度: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测: observation.state
- 数据类型: float32
- 维度: [6]
- 关节位置与动作特征相同
图像观测: observation.images.front
- 数据类型: video
- 维度: [720, 1280, 3]
- 属性: 彩色图像，无音频，非深度图

索引特征

时间戳: timestamp (float32)
帧索引: frame_index (int64)
回合索引: episode_index (int64)
数据索引: index (int64)
任务索引: task_index (int64)

技术信息

代码库版本: v3.0
机器人类型: so100_follower

搜集汇总

数据集介绍

构建方式

在机器人操作领域，so-arm101-grab-cube数据集通过LeRobot平台系统采集了30个完整操作序列，涵盖16949帧数据。该数据集采用分块存储机制，以1000帧为单元将数据组织为Parquet格式文件，同时配套保存了分辨率为1280×720的30帧率视频流。数据采集过程中记录了六自由度机械臂的关节位置与夹爪状态，并同步存储了前视摄像头的视觉观测信息，构建出多模态的机器人操作记录体系。

特点

该数据集的核心特征体现在其丰富的多模态数据结构中，动作空间包含六维关节控制指令，观测空间则同步提供机械臂状态参数与高清视觉信息。数据组织采用分层索引机制，通过帧索引、回合索引与任务索引实现精准定位。视频数据采用AV1编码压缩技术，在保证视觉质量的同时显著降低存储需求。所有数据字段均配备完整的元数据描述，包括数据类型、维度结构与物理含义注释，为算法开发提供清晰的语义指引。

使用方法

研究者可通过标准数据加载流程访问该数据集，利用预定义的路径模板读取分块存储的Parquet文件。训练集包含全部30个操作回合，支持端到端的模仿学习与强化学习算法验证。数据使用时应注重时序连续性，结合帧索引与时间戳构建完整的行为序列。视觉模态与状态观测的同步特性使其特别适用于跨模态表示学习研究，而精细的动作标注则为机器人抓取任务的策略优化提供可靠监督信号。

背景与挑战

背景概述

在机器人操作任务研究领域，so-arm101-grab-cube数据集作为LeRobot项目框架下的重要数据资源，专注于机械臂抓取立方体的动作序列记录。该数据集通过集成六自由度关节角度控制与多模态感知数据，构建了包含30个完整任务序列的示范数据集，每帧数据均包含关节空间坐标与720p视觉观测信息。其采用Apache 2.0开源协议的特性，为机器人模仿学习研究提供了标准化数据支撑，通过16949帧连续动作记录呈现了从感知到执行的完整闭环，对推动机器人精细操作能力的发展具有重要价值。

当前挑战

该数据集致力于解决机器人精细操作中的动作规划与视觉伺服控制难题，其核心挑战在于多模态数据的时间对齐与空间标定。构建过程中面临传感器噪声消除、机械臂运动学参数标定、视觉-动作对应关系建立等技术障碍，特别是在保持30帧率连续采集的同时确保6维动作空间与1280×720分辨率视觉数据的同步精度。数据规模限制也带来泛化能力不足的隐忧，如何通过有限示范样本学习可迁移的抓取策略成为亟待突破的瓶颈。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过记录六自由度机械臂抓取立方体的完整动作序列，为模仿学习算法提供了标准化的训练基准。其包含的关节位置数据与同步视觉观测，能够有效支撑端到端策略网络的训练过程，帮助模型理解从感知到执行的映射关系。

衍生相关工作

基于该数据集衍生的研究已延伸至多任务强化学习领域，催生了如分层策略网络、跨模态表示学习等创新方法。这些工作通过挖掘数据集中隐含的动作模式与状态转移规律，进一步推动了机器人操作技能的可迁移性与组合泛化能力研究。

数据集最近研究