ceshank01/stack-pyramid-v1-v4

Name: ceshank01/stack-pyramid-v1-v4
Creator: ceshank01
Published: 2026-04-10 23:14:12
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ceshank01/stack-pyramid-v1-v4

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=ceshank01/stack-pyramid-v1-v4"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": null, "total_episodes": 998, "total_frames": 206083, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 20, "splits": { "train": "0:998" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "observation.state": { "dtype": "float32", "shape": [ 9 ], "names": [ "joint_0", "joint_1", "joint_2", "joint_3", "joint_4", "joint_5", "joint_6", "joint_7", "joint_8" ] }, "action": { "dtype": "float32", "shape": [ 8 ], "names": [ "joint_0", "joint_1", "joint_2", "joint_3", "joint_4", "joint_5", "joint_6", "joint_7" ] }, "observation.images.base_camera": { "dtype": "video", "shape": [ 3, 128, 128 ], "names": [ "channel", "height", "width" ], "info": { "video.height": 128, "video.width": 128, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.hand_camera": { "dtype": "video", "shape": [ 3, 128, 128 ], "names": [ "channel", "height", "width" ], "info": { "video.height": 128, "video.width": 128, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

ceshank01

搜集汇总

数据集介绍

构建方式

在机器人操作任务领域，数据集的构建往往依赖于真实环境中的交互记录。stack-pyramid-v1-v4数据集通过LeRobot平台系统性地采集了机器人执行堆叠金字塔任务的演示数据。该数据集包含998个完整任务片段，总计206083帧数据，以20帧每秒的速率记录。数据以分块形式存储于Parquet文件中，每个数据块规模为1000帧，确保了高效的数据管理与访问。观测数据涵盖机器人关节状态与双视角视觉信息，动作数据则记录了八维关节控制指令，共同构成了机器人学习堆叠操作的多模态交互轨迹。

特点

该数据集在机器人操作学习领域展现出鲜明的多模态特性。其核心特征在于融合了高维关节状态观测与双摄像头视觉流，分别从基座视角与手部视角捕捉任务执行环境，每帧图像分辨率统一为128x128像素。数据结构设计严谨，包含时间戳、帧索引与任务索引等元信息，支持精确的时间对齐与轨迹分析。数据集规模适中，涵盖近千次任务演示，为模仿学习与强化学习算法提供了丰富的训练样本。数据以高效压缩的AV1编码视频格式存储，兼顾了存储效率与视觉质量，便于研究者进行大规模离线分析与模型训练。

使用方法

研究者可利用该数据集开展机器人操作技能的模仿学习与行为克隆研究。通过加载Parquet格式的数据文件，可以便捷地访问关节状态、视觉观测及对应动作序列。数据已预划分为训练集，可直接用于训练端到端的策略网络或视觉运动控制模型。借助LeRobot提供的可视化工具，用户能够直观审视任务执行过程，分析机器人姿态与视觉观测的对应关系。在模型训练过程中，建议利用帧索引与时间戳信息进行轨迹切片，并结合双视角图像输入提升模型的环境感知鲁棒性。数据集兼容主流机器人学习框架，为算法验证与比较提供了标准化基准。

背景与挑战

背景概述

在机器人操作领域，模仿学习与强化学习的进展亟需大规模、高质量的真实世界交互数据作为支撑。stack-pyramid-v1-v4数据集由LeRobot团队创建，旨在为机器人堆叠金字塔任务提供丰富的多模态演示数据。该数据集包含998个完整交互片段，涵盖超过20万帧的机器人状态、动作及双视角视觉观测，其核心研究问题聚焦于如何从人类演示中学习复杂的灵巧操作策略，以推动机器人自主执行精细化装配任务的能力发展。

当前挑战

该数据集致力于解决机器人堆叠操作中的策略泛化与视觉-动作映射挑战，要求模型在动态环境中理解物体几何关系并生成精确的关节控制序列。构建过程中面临多重困难：真实机器人数据采集成本高昂，需确保动作的平滑性与安全性；多传感器时序对齐与数据同步处理复杂；以及大规模视频数据的高效压缩与存储，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在机器人操作与强化学习领域，stack-pyramid-v1-v4数据集为研究机器人堆叠任务提供了丰富的多模态数据资源。该数据集通过记录机械臂执行堆叠金字塔状物体的完整过程，包含了关节状态、动作指令以及来自基座相机和手部相机的视觉信息，使得研究者能够基于真实世界交互数据训练端到端的机器人控制模型。其经典使用场景在于模拟复杂操作任务，为算法验证和性能评估提供了标准化基准。

解决学术问题

该数据集有效应对了机器人学习领域中样本效率低下与仿真到现实迁移困难的学术挑战。通过提供大规模真实世界交互数据，它支持离线强化学习、模仿学习以及视觉运动策略学习等研究方向，减少了在物理机器人上直接试错的高成本与风险。其多模态特性促进了跨模态表示学习的发展，为解决机器人操作中的泛化性与鲁棒性问题奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列专注于机器人操作学习的经典研究工作。这些工作通常利用其提供的状态-动作对与同步视觉流，开发先进的深度强化学习架构或行为克隆算法。部分研究进一步探索了从视频演示中提取策略、多任务学习以及数据驱动的动力学模型构建。这些成果共同推动了以数据为中心（data-centric）的机器人学习范式，并促进了如LeRobot等开源机器人学习生态的繁荣。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集