robocasa_target_GetToastedBread

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_GetToastedBread

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人数据集，专门针对PandaOmron机器人。数据集包含506个训练集片段，总计654,840帧数据，帧率为20fps。数据以parquet文件格式存储，并包含配套的视频文件。数据集主要特征包括机器人手眼视角、代理视角的左右视频图像（256x256像素，RGB三通道），以及机器人的状态观测（16维浮点数）、动作（12维浮点数）、奖励信号、完成标志等。此外，还包含任务描述和任务名称的标注信息。视频数据采用h264编码，yuv420p像素格式，无音频。数据集总大小约为300MB（数据文件100MB，视频文件200MB），适用于机器人学习、行为克隆、强化学习等任务场景。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称: BrunoM42/robocasa_target_GetToastedBread
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学

数据集规模

总任务数: 1
总情节数: 506
总帧数: 654,840
数据文件总大小: 100 MB
视频文件总大小: 200 MB

数据结构与格式

数据文件格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据分块大小: 1000帧
帧率: 20 FPS
数据划分: 所有506个情节均用于训练

特征字段

图像观测

observation.images.robot0_eye_in_hand
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频编码: H.264
- 像素格式: yuv420p
- 非深度图，无音频
observation.images.robot0_agentview_left
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频编码: H.264
- 像素格式: yuv420p
- 非深度图，无音频
observation.images.robot0_agentview_right
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频编码: H.264
- 像素格式: yuv420p
- 非深度图，无音频

状态与动作

observation.state
- 数据类型: float64
- 形状: [16]
action
- 数据类型: float64
- 形状: [12]

任务标注

annotation.human.task_description
- 数据类型: int64
- 形状: [1]
annotation.human.task_name
- 数据类型: int64
- 形状: [1]

元数据与索引

next.reward: float32, 形状 [1]
next.done: bool, 形状 [1]
timestamp: float32, 形状 [1]
frame_index: int64, 形状 [1]
episode_index: int64, 形状 [1]
index: int64, 形状 [1]
task_index: int64, 形状 [1]

技术信息

代码库版本: v3.0
机器人类型: PandaOmron
所有特征字段帧率: 20 FPS

引用信息

主页: 未提供
论文: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作任务数据集的构建领域，robocasa_target_GetToastedBread数据集通过LeRobot平台系统性地采集了真实世界的交互数据。该数据集聚焦于单一任务，即烤面包操作，利用PandaOmron机器人平台执行并记录了506个完整任务片段。数据以每秒20帧的速率采集，包含超过65万帧的观测信息，并以分块存储的Parquet格式组织，确保了大规模时序数据的高效存取与处理。

使用方法

研究人员可通过HuggingFace数据集库直接加载此数据集，利用其预定义的特征键访问多路视频、状态与动作序列。数据集已划分为训练集，涵盖全部506个片段，适用于端到端的策略学习或行为克隆模型训练。典型的使用流程包括解析Parquet文件以获取时序数据流，结合视觉观测与机器人状态联合训练感知-动作映射模型，并可利用附带的奖励信号进行策略评估与优化。

背景与挑战

背景概述

在机器人学习领域，构建能够执行复杂日常任务的智能体一直是核心研究目标。robocasa_target_GetToastedBread数据集应运而生，专注于机器人完成‘烤面包’这一具体家庭操作任务。该数据集由LeRobot项目团队创建，利用PandaOmron机器人平台，采集了包含506个完整交互序列、超过65万帧的多视角视频与状态动作数据。其核心研究问题在于为机器人模仿学习与强化学习提供高质量、结构化的真实世界演示数据，以推动家庭服务机器人技能获取技术的发展，对提升机器人在非结构化环境中的操作泛化能力具有重要价值。

当前挑战

该数据集旨在解决机器人模仿学习中，针对特定、细粒度家庭操作任务（如烤面包）的技能学习挑战。其面临的领域问题挑战包括：如何从高维视觉观察中有效提取与任务相关的特征，以及如何将人类演示的动作序列泛化至略有差异的环境配置中。在构建过程中，挑战同样显著，例如需要确保多摄像头（手眼视角与全局视角）视频数据在时间上的精确同步，处理大规模视频数据带来的存储与计算负担，以及在真实物理系统中连续、稳定地采集数百个成功演示片段所涉及的工程复杂度与可靠性问题。

常用场景

经典使用场景

在机器人学习领域，robocasa_target_GetToastedBread数据集聚焦于家庭环境中的日常任务执行，其经典使用场景在于训练机器人完成烤面包这一具体操作。该数据集通过提供多视角视觉观测、机器人状态及动作序列，为模仿学习与强化学习算法构建了丰富的训练环境。研究者可利用这些数据开发模型，使机器人能够理解并执行从取面包到操作烤面包机的完整流程，从而推动家庭服务机器人的技能泛化与适应性提升。

解决学术问题

该数据集有效解决了机器人学中关于复杂任务序列学习与视觉运动控制的若干关键问题。通过提供高帧率的多摄像头视频流及精确的动作标注，它支持研究者在动态环境中探索端到端策略学习、多模态感知融合以及长期任务规划等前沿课题。其意义在于为真实世界机器人操作提供了标准化基准，促进了算法在非结构化场景中的鲁棒性与效率评估，对推动服务机器人向实用化迈进具有重要影响。

实际应用

在实际应用层面，robocasa_target_GetToastedBread数据集直接服务于家庭自动化与辅助生活领域。基于该数据集训练的模型可部署于智能厨房助手，帮助老年或行动不便者完成早餐准备等日常活动。此外，它也为机器人制造商提供了验证产品在复杂家居任务中性能的测试平台，加速了服务机器人在餐饮、护理等行业的落地进程，体现了人工智能技术向民生需求渗透的实践价值。

数据集最近研究