BrunoM42/robocasa_target_StackBowlsCabinet

Name: BrunoM42/robocasa_target_StackBowlsCabinet
Creator: BrunoM42
Published: 2026-03-28 16:46:32
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/BrunoM42/robocasa_target_StackBowlsCabinet

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "PandaOmron", "total_episodes": 515, "total_frames": 175620, "total_tasks": 1, "chunks_size": 1000, "fps": 20, "splits": { "train": "0:515" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "observation.images.robot0_eye_in_hand": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.robot0_agentview_left": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.robot0_agentview_right": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "annotation.human.task_description": { "dtype": "int64", "shape": [ 1 ], "fps": 20 }, "annotation.human.task_name": { "dtype": "int64", "shape": [ 1 ], "fps": 20 }, "observation.state": { "dtype": "float64", "shape": [ 16 ], "fps": 20 }, "action": { "dtype": "float64", "shape": [ 12 ], "fps": 20 }, "next.reward": { "dtype": "float32", "shape": [ 1 ], "fps": 20 }, "next.done": { "dtype": "bool", "shape": [ 1 ], "fps": 20 }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null, "fps": 20 }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 } }, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200 } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

BrunoM42

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，robocasa_target_StackBowlsCabinet数据集依托LeRobot平台构建，采用PandaOmron机器人执行单一任务。数据采集过程以20帧每秒的速率记录，涵盖515个完整交互片段，累计生成175,620帧数据。原始观测信息被结构化存储为Parquet格式文件，并辅以MP4格式的视频流，确保多模态数据的同步与完整性。数据组织采用分块策略，每块包含1000帧，便于高效存取与处理。

特点

该数据集的核心特征在于其丰富的多模态表示，提供了机器人手眼相机与全局视角的双目视觉观测，图像分辨率统一为256x256像素。同时，数据集包含16维的机器人状态向量与12维的动作序列，并标注了任务描述、奖励信号及终止标志。时序信息通过时间戳与帧索引精确对齐，支持强化学习与模仿学习算法的训练。数据规模适中，总数据量约300MB，兼顾了模型训练的可行性与复杂性。

使用方法

研究人员可通过HuggingFace平台直接访问该数据集，利用LeRobot提供的工具链加载Parquet文件与关联视频。数据集已预设训练集划分，涵盖全部515个片段，适用于端到端的策略学习或行为克隆。典型应用包括解析视觉-动作映射关系，训练机器人完成叠放碗具至橱柜的精细操作。开发者可依据帧索引与时间戳对齐多源数据，并利用任务标注进行有监督或奖励驱动的模型优化。

背景与挑战

背景概述

在机器人操作领域，模拟真实世界复杂任务的数据集对于推动机器人学习算法的进步至关重要。robocasa_target_StackBowlsCabinet数据集由LeRobot项目创建，专注于家庭环境中的机器人操作任务，具体涉及将碗堆叠到橱柜中的精细动作。该数据集采用PandaOmron机器人平台，包含515个完整交互片段，总计超过17.5万帧的多视角视觉与状态数据，旨在为机器人模仿学习与强化学习提供高质量的真实世界交互轨迹。其构建体现了当前机器人研究向开放世界、多模态感知与控制融合的发展趋势，为解决机器人泛化能力与任务适应性等核心问题提供了实证基础。

当前挑战

该数据集致力于解决机器人操作中复杂物体堆叠任务的挑战，这类任务要求机器人具备精确的抓取、放置与平衡控制能力，同时需应对视觉遮挡、物体姿态估计以及环境动力学变化等难题。在构建过程中，数据采集面临多传感器同步、高维连续动作空间记录以及真实世界干扰引入的噪声控制等技术障碍。此外，确保数据集的规模与多样性以覆盖任务执行中的常见失败模式与边缘情况，同时保持标注一致性，亦是构建高质量机器人操作数据集的核心挑战。

常用场景

经典使用场景

在机器人操作与强化学习领域，robocasa_target_StackBowlsCabinet数据集以其丰富的多视角视觉数据和精确的动作序列记录，为模拟家庭环境中的物体堆叠任务提供了经典范例。该数据集通过PandaOmron机器人执行将碗堆叠至橱柜的复杂操作，涵盖了从视觉感知到运动控制的完整闭环，成为训练端到端机器人策略的基准资源。其高帧率的视频流与多维状态特征，使得研究者能够深入分析机器人在非结构化环境中的灵巧操作能力，推动了模仿学习与视觉伺服技术的融合应用。

衍生相关工作

围绕该数据集，学术界衍生出一系列聚焦于机器人操作创新的研究工作。例如，结合逆动力学模型与视觉预训练的方法，提升了堆叠任务中的动作预测精度；基于时空注意力机制的策略网络，实现了长时序操作任务的规划与执行；此外，该数据集也常被用于评估多任务学习框架的效能，催生了如分层强化学习与元学习在机器人领域的交叉应用，持续推动着灵巧操作技术的边界拓展。

数据集最近研究