xiaochyVera/stack_bowls_human_5_1

Name: xiaochyVera/stack_bowls_human_5_1
Creator: xiaochyVera
Published: 2026-05-01 22:47:55
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/xiaochyVera/stack_bowls_human_5_1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由LeRobot项目创建的机器人相关数据集，包含300个episodes，共67217帧数据，帧率为30fps。数据集包含多种机器人相关特征：8维关节动作和状态、10维末端执行器姿态、来自Azure Kinect左摄像头和前置摄像头的深度和彩色图像（分辨率720x1280）等。所有数据以parquet格式存储，视频以mp4格式存储。数据集仅包含训练集划分（0:300）。

This dataset was created using LeRobot, containing 300 episodes with a total of 67,217 frames at 30fps. It includes various robotic features: 8-dimensional joint actions and states, 10-dimensional end-effector poses, depth and color images (resolution 720x1280) from Azure Kinect left and front cameras. All data is stored in parquet format, with videos in mp4 format. The dataset only contains a training split (0:300).

提供机构：

xiaochyVera

搜集汇总

数据集介绍

构建方式

在机器人操作领域的探索中，数据集扮演着驱动算法演进的关键角色。stack_bowls_human_5_1数据集基于LeRobot框架构建，聚焦于机器人堆叠碗具的精细化操作任务。该数据集共包含300个示范片段（episodes），总计67217帧图像，所有数据均为同一任务（堆叠碗具）的采集结果。每个片段以30帧每秒的采样率记录，数据格式采用高效的Parquet存储，视频与状态数据分别以独立的视频文件和结构化路径进行组织。数据特征涵盖了机器人7个关节角度与夹爪开合度的状态和动作信息，同时还包括末端执行器的六维旋转与三维平移及夹爪关节的位姿数据，以及来自三路相机（左侧Azure Kinect的彩色与转换深度图、正面Azure Kinect的彩色图）的高分辨率视觉观测，为模仿学习与强化学习研究提供了多模态的数据基础。

特点

该数据集的显著特点在于其精细化的多模态数据构成。除了提供基础的关节空间状态-动作对（8维向量），还额外提取了操作末端的笛卡尔空间位姿（10维向量，包含6维旋转表示、3维平移及夹爪开合度），覆盖了从运动学到任务空间的完整信息维度。视觉方面，数据集不仅采集了正面与左侧视角的1280×720 RGB彩色图像，更融合了与彩色图对齐的转换深度图，为感知环境的三维结构提供了可能。全部300个示范片段均属于堆叠碗具这一单一任务，保证了数据在任务语义上的一致性。此外，数据集明确划分了训练集（使用全部300个片段），并包含约900个视频文件，为大规模离线训练和模仿学习方法的评估提供了充足且结构清晰的样本。

使用方法

使用该数据集进行机器人学习研究时，推荐通过LeRobot库进行加载与处理。用户可依据LeRobot的标准流程，利用其API读取Parquet文件中的状态、动作与时间戳序列，并同步加载对应视频片段作为视觉输入。数据集的组织格式支持按片段索引随机访问，便于构建小批量训练样本。在典型应用场景中，研究者可将相机图像作为观测输入，将关节或末端位姿作为动作标签，训练行为克隆或扩散策略模型。所有数据均已规范化存储，无需额外预处理即可直接用于模仿学习的损失计算与性能评估，显著降低了从真实机器人采集数据到算法验证之间的工程开销。

背景与挑战

背景概述

在机器人操作领域，模仿学习已成为一项关键技术，它通过从人类演示中学习策略，使机器人能够执行复杂的操作任务。在此背景下，stack_bowls_human_5_1数据集应运而生，由LeRobot社区基于其开源框架构建，旨在提供高质量的机器人操作演示数据。该数据集于近期发布，包含300个情节（共67217帧），围绕堆叠碗这一特定任务展开，记录了7自由度的关节状态、末端执行器位姿以及多视角视觉信息。其设计初衷是推动机器人从人类演示中学习精细操作技巧，特别是在物体堆叠这一具有代表性的场景中提升模型的泛化能力。作为基于LeRobot标准格式的数据集，它易于集成到现有的模仿学习流程，对推动机器人学习领域的基准测试与算法研究具有重要价值。

当前挑战

该数据集所解决的领域核心挑战在于机器人精细操作中的模仿学习，特别是从高维视觉和状态观测中提取稳健策略以完成堆叠碗这类需精确对齐的动作。在构建过程中，挑战尤为显著：首先，数据采集需依赖人类操作者的熟练演示，确保动作的一致性与完整性，但从300个情节中仅提取67217帧表明数据采集效率与质量难以兼得；其次，多传感器同步（如Azure Kinect深度相机与彩色相机）及位姿标定要求高精度，以避免视角偏差影响后续学习；最后，数据集的分布单一（仅单一任务）可能限制模型在类似操作上的泛化能力，未来需扩展场景多样性以应对实际部署中的多变环境。

常用场景

经典使用场景

在机器人模仿学习与操控任务的研究领域中，stack_bowls_human_5_1数据集为细粒度操作技能的学习提供了珍贵的数据资源。该数据集包含300个演示回合，共计超过六万七千帧的高频时序数据，记录了人类操作者执行堆叠碗具任务的完整过程。借助多视角视觉输入（包括Azure Kinect深度与彩色相机）以及精确的关节角度、末端执行器位姿和夹爪状态等观测信息，研究者能够构建从视觉感知到运动控制的端到端映射模型。该数据集尤其适用于训练机器人理解物体堆叠中的物理交互逻辑，如精确对准、力控调节与稳定性判断。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在基于扩散策略的高维动作生成、视觉前馈模型的跨任务泛化以及基于状态的强化学习预训练方向。例如，研究者利用其丰富的时序信息开发了条件变分自编码器与隐变量规划器，实现了对长程堆叠动作的平滑合成；另有工作将该数据作为多模态预训练基准，在少样本条件下将堆叠技能迁移至不同物体拓扑结构。在模型架构方面，Transformer与时空注意力的结合被验证能够在关键帧间捕捉精细的旋转变换与夹持力度变化。这些成果不仅深化了大家对基于人类示范的机器人学习范式的理解，也持续拓展着数据集本身作为可复用基准的价值边界。

数据集最近研究