robocasa_target_LoadDishwasher

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_LoadDishwasher

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专注于机器人技术领域，采用Apache-2.0许可协议。数据集包含501个总片段，369430帧，涉及1个任务，帧率为20FPS。数据以Parquet格式存储，视频以MP4格式存储。数据集结构详细描述了多个特征，包括机器人手眼视图和代理视图的图像（256x256像素，3通道，H.264编码），以及状态、动作、奖励等元数据。每个特征的数据类型、形状和帧率均有详细说明。数据集总大小为100MB的数据文件和200MB的视频文件。适用于机器人视觉、动作控制等研究任务。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称: BrunoM42/robocasa_target_LoadDishwasher
创建工具: 使用 LeRobot 创建
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总任务数: 1
总情节数: 501
总帧数: 369430
数据块大小: 1000
帧率: 20 FPS
数据文件大小: 100 MB
视频文件大小: 200 MB
数据格式: Parquet
视频格式: MP4
数据分割: 训练集 (0:501)

数据特征

图像观测

特征名称: observation.images.robot0_eye_in_hand
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息:
  - 帧率: 20 FPS
  - 编解码器: h264
  - 像素格式: yuv420p
  - 非深度图
  - 无音频
特征名称: observation.images.robot0_agentview_left
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息:
  - 帧率: 20 FPS
  - 编解码器: h264
  - 像素格式: yuv420p
  - 非深度图
  - 无音频
特征名称: observation.images.robot0_agentview_right
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息:
  - 帧率: 20 FPS
  - 编解码器: h264
  - 像素格式: yuv420p
  - 非深度图
  - 无音频

标注与状态

特征名称: annotation.human.task_description
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
特征名称: annotation.human.task_name
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
特征名称: observation.state
- 数据类型: float64
- 形状: [16]
- 帧率: 20 FPS

动作与奖励

特征名称: action
- 数据类型: float64
- 形状: [12]
- 帧率: 20 FPS
特征名称: next.reward
- 数据类型: float32
- 形状: [1]
- 帧率: 20 FPS
特征名称: next.done
- 数据类型: bool
- 形状: [1]
- 帧率: 20 FPS

索引与时间戳

特征名称: timestamp
- 数据类型: float32
- 形状: [1]
- 帧率: 20 FPS
特征名称: frame_index
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
特征名称: episode_index
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
特征名称: index
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
特征名称: task_index
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS

机器人信息

机器人类型: PandaOmron
代码库版本: v3.0

文件路径模式

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX 引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于推动算法进步至关重要。robocasa_target_LoadDishwasher数据集依托LeRobot框架构建，专注于模拟现实世界中的餐具装载任务。该数据集通过PandaOmron机器人平台采集，总计包含501个完整任务片段，生成超过36万帧的时序数据。数据以分块形式存储于Parquet文件中，每块容纳1000帧，并以20帧每秒的速率同步记录机器人的多视角视觉观测、关节状态以及对应的动作指令，确保了数据在时间维度上的连贯性与精确对齐。

特点

该数据集的核心特征在于其多模态与高结构化的数据呈现。它提供了三路高清视觉流，包括手眼相机视角与两个全局代理视角，每路视频分辨率均为256x256，采用H.264编码，为模型学习提供了丰富的空间上下文信息。同时，数据集精确记录了16维的机器人状态向量与12维的动作向量，并附带有任务描述、奖励信号及终止标志等标注信息。所有数据均以统一的20Hz频率采样，保证了观测与动作序列的严格同步，这种精心设计的数据结构特别适用于端到端的模仿学习与强化学习算法的训练与验证。

使用方法

为有效利用该数据集进行机器人技能学习研究，使用者可通过HuggingFace平台获取数据文件。数据集已预分割为训练集，研究者可直接加载Parquet格式文件以访问结构化数据。对于视觉信息，配套的MP4视频文件可按路径独立访问。在具体应用中，算法可同时读取多视角图像序列、机器人状态及动作标签，构建状态-动作对用于行为克隆，或结合奖励与终止信号用于离线强化学习。数据的高帧率与精确时间戳支持构建复杂的时序预测模型，以学习将视觉感知映射为连续控制策略。

背景与挑战

背景概述

在机器人学习领域，家庭环境中的复杂操作任务一直是研究的前沿课题。robocasa_target_LoadDishwasher数据集由LeRobot团队创建，专注于模拟机器人执行餐具装载至洗碗机的具体场景。该数据集利用PandaOmron机器人平台，采集了501个任务片段，总计超过36万帧的多视角视觉与状态数据，旨在为机器人操作策略的学习提供高质量的示范轨迹。其核心研究问题在于解决机器人如何在非结构化家庭环境中理解并执行精细的物体操纵任务，从而推动具身智能在现实应用中的进展。

当前挑战

该数据集所针对的领域挑战在于家庭场景下的机器人操作具有高度复杂性和不确定性，例如餐具的多样形状、摆放位置的随机性以及与环境交互的物理约束，要求模型具备强大的泛化与适应能力。在构建过程中，数据采集面临诸多困难，包括多传感器数据的同步对齐、高维连续动作空间的精确记录，以及大规模视频数据的存储与处理效率问题。此外，确保任务示范的一致性与高质量标注，以支持有效的强化学习或模仿学习，亦是数据集构建中的关键难点。

常用场景

经典使用场景

在机器人学习领域，robocasa_target_LoadDishwasher数据集为模拟家庭环境中的复杂操作任务提供了关键资源。该数据集聚焦于洗碗机装载这一具体场景，通过PandaOmron机器人采集了501个完整交互序列，包含多视角视觉观测与动作数据。其经典使用场景在于训练机器人执行精细的物体抓取与放置任务，例如从杂乱桌面识别餐具并将其有序排列至洗碗机内。数据集的高帧率视频与状态记录，使得研究者能够深入分析机器人在动态环境中的决策与执行过程，为模仿学习与强化学习算法提供了丰富的训练样本。

衍生相关工作

围绕robocasa_target_LoadDishwasher数据集，已衍生出多项经典研究工作。例如，基于其多模态数据开发的端到端模仿学习框架，显著提升了机器人任务完成的成功率。同时，结合强化学习算法，研究者探索了在部分可观测环境下的策略优化方法。这些工作进一步催生了针对长期任务序列的层次化学习模型，以及跨任务知识迁移的技术探索。数据集作为LeRobot生态的一部分，也激励了更多开源社区贡献，形成了机器人学习领域的协同创新氛围。

数据集最近研究