grab_cube

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/yi058588/grab_cube

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学相关数据集，使用LeRobot创建。数据集采用Apache-2.0许可证，主要面向机器人任务。数据集结构包括1个episode，655帧，1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据存储在parquet文件中，视频文件为mp4格式。数据集包含多个特征字段，包括动作（6个浮点型关节位置）、观察状态（6个浮点型关节位置）、全局和腕部观察图像（480x640x3的视频数据）、时间戳、帧索引、episode索引、索引和任务索引。全局和腕部观察图像的视频信息包括高度、宽度、通道数、编解码器、像素格式、是否为深度图、帧率和是否有音频等。数据集适用于机器人控制、视觉伺服等任务。

创建时间：

2026-04-28

原始信息汇总

数据集概述：grab_cube

该数据集是一个用于机器人抓取任务的演示数据集，通过 LeRobot 框架创建，适用于机器人学习与仿真。

基本信息

许可证：Apache-2.0
任务类别：机器人 (robotics)
标签：LeRobot
配置：default（数据文件路径：data/*/*.parquet）

数据集规模

总片段数：1 个
总帧数：655 帧
总任务数：1 个
数据文件大小：100 MB
视频文件大小：200 MB
帧率：30 FPS

数据集结构

机器人类型：so_follower
代码库版本：v3.0
数据分块：chunks_size = 1000
数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分：训练集 (train) 包含所有数据（索引 0 到 1）

特征字段

字段名称	数据类型	形状	说明
action	float32	(6,)	动作指令，包含6个关节位置（肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）
observation.state	float32	(6,)	机器人观测状态，同动作指令的6个关节位置
observation.images.global	video	(480, 640, 3)	全局视角摄像头视频，分辨率480×640，编码av1，帧率30fps
observation.images.wrist	video	(480, 640, 3)	腕部视角摄像头视频，分辨率480×640，编码av1，帧率30fps
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	全局索引
task_index	int64	(1,)	任务索引

其他说明

数据集可视化入口：https://huggingface.co/spaces/lerobot/visualize_dataset?path=yi058588/grab_cube
论文与主页信息：暂无（标记为 "More Information Needed"）

搜集汇总

数据集介绍

构建方式

数据集的构建依托于LeRobot框架，旨在为机器人抓取方块任务提供标准化的训练与评估数据。通过操控so_follower机械臂记录单条长序列轨迹，以30帧/秒的频率同步采集六维关节动作指令、对应的本体状态反馈，以及全局视角与腕部摄像头的640×480分辨率视频流，借助高效的AV1视频编解码方案压缩高帧率视觉素材，最终将单一任务中655个时序帧存储为Parquet格式的结构化数据块，形成紧凑且可直接用于模仿学习的示范集。

使用方法

数据集的使用高度依赖LeRobot生态，用户可通过该工具库内置的加载接口一键读取Parquet数据表与MP4视频片段，获取格式规整的action、observation.state及observation.images字段。开发者既可以在模拟器中利用所录制的示范执行行为克隆或离线强化学习训练，也可将其视为基准来测试小型机器人操控模型在多模态输入下的表征能力，仅需匹配字段名称与分块索引即可快速接入现有框架。

背景与挑战

背景概述

grab_cube数据集由Hugging Face社区的研究人员基于LeRobot框架创建，专注于机器人操作任务的学习与模仿。该数据集于近期发布，核心研究问题在于如何利用少量演示数据驱动机器人完成精细的抓取动作，例如从固定位置抓取立方体。数据集包含单个演示轨迹，总计655帧，通过SO-Follower机器人平台采集，涵盖6自由度关节状态与多视角视觉信息，为机器人模仿学习提供了基础性资源。尽管规模较小，但其标准化的数据格式和开源协议（Apache-2.0）为后续研究提供了可复现的基准，尤其在低资源学习场景中具有参考价值。

当前挑战

该数据集面临的挑战显著：首先，在领域问题层面，机器人抓取任务涉及高维状态空间与复杂动力学模型的融合，单条演示轨迹难以覆盖多样化的物体姿态和环境变化，导致模型泛化能力受限；其次，构建过程中，数据采集依赖人工遥操作，耗时且易引入噪声，同时视觉与运动数据的同步校准（如30FPS视频与关节状态匹配）对硬件精度提出严苛要求；此外，仅包含单一任务和场景的设计限制了数据集在真实工业部署中的实用性，亟需扩展演示多样性以提升鲁棒性。

常用场景

经典使用场景

在机器人学习与操控领域，grab_cube数据集作为一项精细的操作任务基准，被广泛用于训练和评估机械臂的抓取策略。该数据集记录了单次抓取立方体的完整交互过程，包含30帧每秒的高清视频流（全局与腕部视角）以及六自由度关节状态和动作序列。研究者常利用其结构与视觉数据，构建端到端的模仿学习模型，探索从视觉输入到连续动作输出的映射关系，尤其在基于行为克隆或逆强化学习的算法中占据核心地位。

解决学术问题

grab_cube数据集有效回应了机器人学中样本效率不足与泛化能力薄弱的议题。通过提供规范化、多模态的演示数据，它支持了少样本学习与迁移学习范式的验证，使得学术界得以深入剖析在限定示教次数下，机器人如何习得稳健的抓取技能。此外，该数据集促进了视觉-运动耦合机制的量化研究，为解决动态环境下操作精度低、对物体位姿敏感等经典难题贡献了重要实验平台。

实际应用

实际部署场景中，grab_cube数据集衍生的模型可赋能工业流水线上的精密拾取、仓储系统中不规则物体的分拣，以及服务机器人在生活空间内的灵巧操作。借助其标准化的动作与影像记录，开发者能够快速在仿人机械臂（如so_follower型号）上实施预训练策略，并微调至特定工件或非结构化环境，从而缩短自动化系统的部署周期并降低调试成本。

数据集最近研究