BrunoM42/robocasa_target_PickPlaceToasterToCounter

Name: BrunoM42/robocasa_target_PickPlaceToasterToCounter
Creator: BrunoM42
Published: 2026-03-28 13:22:34
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/BrunoM42/robocasa_target_PickPlaceToasterToCounter

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "PandaOmron", "total_episodes": 512, "total_frames": 148353, "total_tasks": 1, "chunks_size": 1000, "fps": 20, "splits": { "train": "0:512" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "observation.images.robot0_eye_in_hand": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.robot0_agentview_left": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.robot0_agentview_right": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "annotation.human.task_description": { "dtype": "int64", "shape": [ 1 ], "fps": 20 }, "annotation.human.task_name": { "dtype": "int64", "shape": [ 1 ], "fps": 20 }, "observation.state": { "dtype": "float64", "shape": [ 16 ], "fps": 20 }, "action": { "dtype": "float64", "shape": [ 12 ], "fps": 20 }, "next.reward": { "dtype": "float32", "shape": [ 1 ], "fps": 20 }, "next.done": { "dtype": "bool", "shape": [ 1 ], "fps": 20 }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null, "fps": 20 }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 } }, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200 } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

BrunoM42

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据集构建领域，robocasa_target_PickPlaceToasterToCounter数据集依托LeRobot平台精心构建而成。该数据集聚焦于单一任务场景，即操控PandaOmron机器人完成将烤面包机放置到台面的具体动作。通过系统化采集，数据集共包含512个完整操作序列，总计148,353帧数据，以20帧每秒的速率记录。数据以分块形式存储，每块包含1000帧，并采用Parquet格式高效组织，确保了大规模时序数据的结构化存取。视频数据以H.264编码保存，分辨率为256x256，涵盖手眼视角与多角度全局视角，为机器人学习提供了丰富的视觉上下文。

特点

该数据集在机器人操作学习领域展现出鲜明的技术特色。其核心在于提供了多模态的观测信息，包括三路高清视频流：机器人手部摄像头视角以及左右两侧的全局代理视角，均以标准化尺寸呈现。同时，数据集整合了16维的机器人状态向量与12维的动作指令，形成了状态-动作对的完整映射。每一帧都附带时间戳、帧索引及任务标识，并包含奖励信号与终止标志，严格遵循强化学习的数据范式。数据集规模适中，总数据量约300MB，兼顾了训练效率与模型泛化需求，为端到端策略学习提供了高质量的基准资源。

使用方法

研究人员可借助该数据集深入探索机器人模仿学习与强化学习算法。数据集已预分割为训练集，涵盖全部512个序列，用户可通过LeRobot库或标准数据加载工具直接读取Parquet文件。每个数据块包含连续的帧序列，支持按时间步提取观测图像、状态信息及对应动作。视频文件独立存储，可通过视频键与块索引进行关联访问。典型使用流程包括加载观测图像作为模型输入，结合状态特征进行多模态融合，并以动作数据作为监督信号训练策略网络。数据集的标准化结构便于集成到主流机器学习框架中，加速家庭场景下机器人抓放任务的算法开发与评估。

背景与挑战

背景概述

在机器人操作领域，具身智能的进步依赖于高质量、多样化的真实世界交互数据。robocasa_target_PickPlaceToasterToCounter数据集作为LeRobot项目的一部分，专注于解决家庭环境中机器人执行复杂拾放任务的挑战。该数据集由HuggingFace社区基于开源框架构建，旨在为机器人学习提供丰富的多模态演示数据，涵盖视觉观察、状态信息和动作序列，以推动模仿学习与强化学习算法在现实场景中的应用。其核心研究问题在于如何让机器人精准理解并执行将烤面包机从一处放置到另一处的日常操作，从而提升机器人在非结构化环境中的适应性与泛化能力。

当前挑战

该数据集致力于解决机器人操作中特定任务泛化的挑战，即如何让模型从有限演示中学习并适应环境变化与物体姿态差异。构建过程中的挑战包括多视角视觉数据的高效同步与对齐，确保来自手眼相机和外部视角的图像流在时间上精确一致；同时，数据标注需准确捕捉任务描述与动作序列的对应关系，以支持端到端策略学习。此外，大规模视频数据的存储与处理对计算资源提出较高要求，需平衡数据质量与存储效率。

常用场景

经典使用场景

在机器人操作领域，robocasa_target_PickPlaceToasterToCounter数据集为研究机器人执行特定物体抓取与放置任务提供了丰富的实验素材。该数据集聚焦于将烤面包机从一处精准搬运至柜台的目标动作，通过多视角视觉观测与机器人状态数据，支持算法在模拟环境中学习复杂的操作策略。其经典使用场景在于训练端到端的机器人控制模型，使机器人能够理解视觉输入并生成相应的关节动作序列，从而完成精细的物体操控任务。

实际应用

在实际应用层面，robocasa_target_PickPlaceToasterToCounter数据集可服务于家庭服务机器人的开发，提升其在厨房场景中的自动化水平。基于该数据集训练的模型能够赋能机器人执行日常物品整理任务，如将小型电器放置到指定位置，从而减轻人力负担。此外，它也为工业自动化中的分拣与装配流程提供了技术验证平台，促进机器人系统在多变环境中的适应性改进。

衍生相关工作

围绕该数据集，已衍生出一系列专注于机器人操作学习的经典研究工作。这些工作通常利用其多模态数据流，开发先进的深度神经网络架构，以实现从视觉观察到动作输出的直接映射。相关研究不仅探索了基于Transformer的序列建模方法，还结合了离线强化学习技术，以提升样本效率与策略稳定性。这些成果进一步丰富了机器人学习领域的理论框架，并为后续更复杂的多任务操作数据集构建奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集