robocasa_target_PackIdenticalLunches

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_PackIdenticalLunches

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，专注于机器人技术领域。数据集包含501个任务的总共719,964帧数据，分为训练集。数据以Parquet格式存储，包含视频和数值数据。视频数据来自三个不同的视角（robot0_eye_in_hand, robot0_agentview_left, robot0_agentview_right），分辨率为256x256，帧率为20fps，编码为h264。数值数据包括机器人状态、动作、奖励等，以float64和int64格式存储。数据集总大小为100MB（数据文件）和200MB（视频文件）。适用于机器人控制、行为学习等任务。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称： BrunoM42/robocasa_target_PackIdenticalLunches
创建工具： LeRobot (https://github.com/huggingface/lerobot)
许可证： Apache-2.0
任务类别： 机器人学
标签： LeRobot

数据集结构

总任务数： 51
总情节数： 501
总帧数： 719,964
数据块大小： 1000
帧率： 20 FPS
数据分割： 训练集 (0:501)
数据格式： Parquet
数据文件路径模式： data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式： videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据文件总大小： 100 MB
视频文件总大小： 200 MB

数据特征

观测特征

observation.images.robot0_eye_in_hand
- 数据类型：视频
- 形状：[256, 256, 3]
- 视频编码：h264
- 像素格式：yuv420p
- 非深度图
- 无音频
observation.images.robot0_agentview_left
- 数据类型：视频
- 形状：[256, 256, 3]
- 视频编码：h264
- 像素格式：yuv420p
- 非深度图
- 无音频
observation.images.robot0_agentview_right
- 数据类型：视频
- 形状：[256, 256, 3]
- 视频编码：h264
- 像素格式：yuv420p
- 非深度图
- 无音频
observation.state
- 数据类型：float64
- 形状：[16]

动作与奖励特征

action
- 数据类型：float64
- 形状：[12]
next.reward
- 数据类型：float32
- 形状：[1]
next.done
- 数据类型：bool
- 形状：[1]

标注特征

annotation.human.task_description
- 数据类型：int64
- 形状：[1]
annotation.human.task_name
- 数据类型：int64
- 形状：[1]

索引与时间特征

timestamp
- 数据类型：float32
- 形状：[1]
frame_index
- 数据类型：int64
- 形状：[1]
episode_index
- 数据类型：int64
- 形状：[1]
index
- 数据类型：int64
- 形状：[1]
task_index
- 数据类型：int64
- 形状：[1]

技术细节

代码库版本： v3.0
机器人类型： PandaOmron
所有特征帧率： 20 FPS

引用信息

论文： 信息缺失
主页： 信息缺失
BibTeX引用： 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，robocasa_target_PackIdenticalLunches数据集通过LeRobot平台精心构建，旨在模拟现实世界中的午餐打包任务。该数据集采集了501个完整的情节，总计超过71万帧数据，以每秒20帧的速率记录。数据以分块形式存储，每块包含1000帧，采用Parquet格式高效组织，同时辅以MP4格式的视频文件，清晰呈现机器人执行任务时的视觉动态。构建过程中，机器人状态、动作指令及任务标注均被同步捕获，确保了时序数据的一致性，为算法训练提供了丰富的多模态信息源。

特点

该数据集的核心特征在于其多视角视觉信息的集成与精细的结构化标注。它提供了机器人手眼相机及左右代理视角的三路高清视频流，每路分辨率均为256x256像素，编码格式统一为H.264，保障了视觉数据的质量与兼容性。数据集不仅包含高维的机器人状态向量与动作序列，还嵌入了任务描述、奖励信号及完成标志等关键元数据。所有特征均以20Hz的频率严格对齐，这种时空同步的设计使得数据集特别适用于需要精确感知与决策的模仿学习与强化学习研究。

使用方法

研究人员可利用该数据集进行机器人操作策略的端到端训练与评估。通过加载Parquet文件，可以便捷地访问图像、状态、动作及标注信息，视频文件则可用于直观的行为回放与分析。数据集已预设为训练集，涵盖51项不同任务，用户可依据情节索引或任务索引提取特定片段，构建自己的训练与验证流程。其标准化的数据格式能够无缝对接主流机器学习框架，支持从行为克隆到离线强化学习等多种算法范式的开发与测试。

背景与挑战

背景概述

在机器人学习领域，构建能够执行复杂日常任务的智能体一直是核心研究目标。robocasa_target_PackIdenticalLunches数据集作为这一方向的重要资源，由LeRobot平台创建，专注于机器人操作任务。该数据集包含501个任务片段，总计超过71万帧数据，记录了PandaOmron机器人在模拟环境中执行“打包相同午餐”这一具体操作的视觉观测、状态与动作序列。其设计旨在为机器人模仿学习与强化学习算法提供高质量、结构化的训练与评估基准，推动家庭服务机器人自主执行精细化操作能力的发展。

当前挑战

该数据集致力于解决机器人操作任务中的模仿学习与策略泛化挑战，其核心问题在于如何让机器人从演示数据中学习并稳健地完成包含物体识别、抓取与摆放的多步骤日常任务。在构建过程中，挑战主要源于高质量演示数据的采集与标注，需确保多视角视觉数据（如手眼相机与全局视角）的时空同步与一致性，并精确记录机器人的状态与动作序列以形成有效的状态-动作对。此外，处理大规模视频与传感器数据带来的存储与计算负担，以及保证任务在多样化初始条件下的可重复性与真实性，均是数据集构建面临的实际难题。

常用场景

经典使用场景

在机器人操作领域，robocasa_target_PackIdenticalLunches数据集为模仿学习与强化学习算法提供了丰富的训练资源。该数据集聚焦于家庭环境中的重复性任务，例如打包相同午餐，通过PandaOmron机器人采集了501个任务片段，包含多视角视觉观测与动作序列。研究者可利用这些数据训练模型理解物体操作、序列规划及环境交互，推动机器人执行日常重复动作的自主性。

解决学术问题

该数据集致力于解决机器人学中泛化能力与任务迁移的挑战。通过提供结构化且标注清晰的多模态数据，它支持算法在动态环境中学习稳健的策略，减少对仿真环境的依赖。其意义在于促进了从视觉感知到动作执行的端到端学习，为处理非结构化家庭任务提供了实证基础，加速了服务机器人实用化进程。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括基于视觉的模仿学习框架、多任务强化学习算法以及跨域策略迁移方法。这些工作利用数据集的多视角视频和状态动作对，探索了机器人操作中的表示学习与序列建模，进一步扩展至更复杂的家庭任务，形成了机器人学习社区中的重要基准与创新源泉。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集