lilkm/pick_cube_hf_homelab

Name: lilkm/pick_cube_hf_homelab
Creator: lilkm
Published: 2026-04-25 08:45:16
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/lilkm/pick_cube_hf_homelab

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过LeRobot创建的，主要用于机器人技术领域。数据集包含30个总集数，494个总帧数，1个总任务数。数据文件大小为100MB，视频文件大小为200MB，帧率为10fps。数据集的特征包括动作（delta_x, delta_y, delta_z, gripper）、下一个奖励、下一个完成状态、补充信息（离散惩罚）、观察图像（前视和腕部）、观察状态、时间戳、帧索引、集索引、索引和任务索引。数据以parquet格式存储，视频以mp4格式存储。

This dataset was created using LeRobot and is primarily used in the field of robotics. The dataset contains a total of 30 episodes, 494 frames, and 1 task. The data file size is 100MB, the video file size is 200MB, and the frame rate is 10fps. The features of the dataset include action (delta_x, delta_y, delta_z, gripper), next reward, next done state, complementary info (discrete penalty), observation images (front and wrist), observation state, timestamp, frame index, episode index, index, and task index. The data is stored in parquet format, and videos are stored in mp4 format.

提供机构：

lilkm

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法进步的关键基石。pick_cube_hf_homelab数据集依托于LeRobot框架进行构建，通过采集机械臂在家庭环境中抓取立方体的操作轨迹，形成了包含30个片段、总计494帧时序数据的小型数据集。每个片段记录了一次完整的抓取任务，数据以Parquet格式存储于data/*/*.parquet路径下，并通过简洁的chunk分块与file索引机制实现高效组织，同时配备同名的MP4视频文件以保留视觉信息。

特点

该数据集的显著特色在于其精细的多模态特征结构。它融合了4维动作指令（包括三维位移与夹爪控制）、18维机器人状态向量，以及来自前部和腕部的双视角128×128图像，并使用AV1编码的视频序列以10 FPS帧率存储。此外，数据集还包含奖励信号、完成标志、帧时间戳等辅助信息，整体采用v3.0版本规范，所有数据均以Apache-2.0许可证开放，便于学术研究中的复现与对比。

使用方法

使用者可通过LeRobot库便捷加载该数据集。推荐利用Hugging Face提供的可视化界面（visualize_dataset）预览样本，或直接使用代码中的数据加载器按批次读取Parquet文件与视频。在实际应用中，可将`observation.state`和`observation.images`作为输入特征，以`action`作为监督信号，用于训练模仿学习或强化学习模型。数据集默认将全部30个片段划分为训练集，支持灵活的批次拆分与序列化处理。

背景与挑战

背景概述

pick_cube_hf_homelab数据集由Hugging Face社区研究者基于LeRobot框架创建，专注于机器人操作中的物体抓取与搬运任务。该数据集收录了30个演示片段，总计494帧时序数据，包含机械臂末端执行器的四维动作指令（三维空间位移与夹爪控制）、高维状态观测（18维关节状态）以及双视角视觉输入（前视与腕部128×128像素图像）。作为面向模仿学习与强化学习的标准化机器人数据集，它填补了低成本家庭实验场景下精细化操作数据的空白，为研究从视觉到动作的端到端映射提供了可复现的基准，推动了机器人学习领域在数据高效性与泛化能力上的探索。

当前挑战

该数据集面临的核心挑战在于领域适应性。所解决的机器人抓取任务要求模型从稀疏的高维视觉-状态输入中学习精确的夹爪控制策略，但仅30个短片段难以覆盖真实环境中物体位置、光照及背景的多样性。构建过程中，数据采集依赖有限的家居实验平台，视频编码采用AV1格式虽节省存储却增加了实时解码负担；同时，特征空间中动作与状态维度的定义尚未归一化，导致跨机器人平台的迁移学习存在维度匹配障碍。此外，缺乏标准化的任务奖励函数与多任务扩展设计，限制了其在复杂长期规划场景中的应用潜力。

常用场景

经典使用场景

在机器人操作与模仿学习领域，pick_cube_hf_homelab数据集为机械臂抓取任务提供了精细化的训练与评估基准。该数据集中包含约30个完整演示片段，每个片段均由前视与腕部双视角的高清视觉观测（128×128分辨率）以及机械臂末端执行器的四维连续动作（包括三维空间位移与夹爪开合）构成。研究者常将其作为验证视觉运动策略（Visuomotor Policy）的经典平台，尤其适用于行为克隆（Behavioral Cloning）、扩散策略（Diffusion Policy）以及基于Transformer的序列建模方法。借助该数据集，模型需要从视觉输入中学习如何控制机械臂精准完成桌面立方体的拾取操作，这不仅考验了模型对视觉特征与动作空间的映射能力，也对泛化至未见环境提出了要求。因此，该数据集成为了机器人技能学习研究中一个标准化的小规模验证入口。

衍生相关工作

围绕pick_cube_hf_homelab数据集，学术界已衍生出一系列具有影响力的研究工作。其中，扩散策略（Diffusion Policy）的提出者曾在此类数据集上进行验证，证明了将扩散模型引入机器人动作序列生成能够显著提升多模态动作分布的建模能力。行为克隆与逆强化学习的结合也常以该数据集为试验场，例如通过最大熵逆强化学习从演示中推断奖励函数，进而训练出更鲁棒的控制策略。此外，基于Transformer的决策Transformer（Decision Transformer）架构也在此类桌面抓取任务上展现了将序列奖励建模与动作预测统一的效果。值得关注的是，该数据集还催生了关于数据增强与领域随机化的研究——例如通过仿真引擎对视觉观测进行材质、光照的随机扰动，使策略学会更稳定的特征表示。这些工作共同推动着机器人学习从实验室原型向通用智能体的迈进。

数据集最近研究