robocasa_target_DeliverStraw

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_DeliverStraw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术领域设计，采用Apache-2.0许可证。数据集包含504个总片段，433,307帧，涉及单一任务。数据以20fps的帧率采集，存储为parquet文件格式，总数据大小为100MB，视频文件大小为200MB。数据集结构包括多个特征字段，如机器人手眼视角、代理左右视角的视频观察（256x256像素，3通道），任务描述和名称的标注，机器人状态观察（16维浮点数），动作（12维浮点数），奖励和完成标志等。所有数据按1000帧的块进行组织，适用于机器人控制、行为模仿和强化学习等任务。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称: BrunoM42/robocasa_target_DeliverStraw
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总任务数: 1
总情节数: 504
总帧数: 433307
数据文件总大小: 100 MB
视频文件总大小: 200 MB

数据结构

数据格式: Parquet 文件
数据存储模式: 数据分块存储，块大小为 1000 帧。
数据路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
帧率: 20 FPS
代码库版本: v3.0
机器人类型: PandaOmron
数据划分: 全部数据（504个情节）均用于训练集。

数据特征

数据集包含以下主要特征：

观测数据

图像观测
- observation.images.robot0_eye_in_hand: 手眼相机视频，形状为 (256, 256, 3)，H.264编码，YUV420p像素格式。
- observation.images.robot0_agentview_left: 左代理视角相机视频，形状为 (256, 256, 3)，H.264编码，YUV420p像素格式。
- observation.images.robot0_agentview_right: 右代理视角相机视频，形状为 (256, 256, 3)，H.264编码，YUV420p像素格式。
状态观测
- observation.state: 机器人状态向量，数据类型为 float64，形状为 (16,)。

动作与标注

action: 机器人动作向量，数据类型为 float64，形状为 (12,)。
annotation.human.task_description: 任务描述标注，数据类型为 int64，形状为 (1,)。
annotation.human.task_name: 任务名称标注，数据类型为 int64，形状为 (1,)。

元数据与索引

next.reward: 下一时刻奖励，数据类型为 float32，形状为 (1,)。
next.done: 情节终止标志，数据类型为 bool，形状为 (1,)。
timestamp: 时间戳，数据类型为 float32，形状为 (1,)。
frame_index: 帧索引，数据类型为 int64，形状为 (1,)。
episode_index: 情节索引，数据类型为 int64，形状为 (1,)。
index: 数据索引，数据类型为 int64，形状为 (1,)。
task_index: 任务索引，数据类型为 int64，形状为 (1,)。

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX 引用格式: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，robocasa_target_DeliverStraw数据集通过LeRobot平台精心构建，专注于单一任务“递送吸管”的演示数据采集。该数据集利用PandaOmron机器人，在模拟或真实环境中执行任务，以20帧每秒的速率记录多视角视觉观测与机器人状态。数据以分块形式存储，包含504个完整交互片段，总计超过43万帧，每帧均关联动作、奖励及任务标注，形成结构化的时序序列，便于后续的模仿学习或强化学习算法训练。

特点

该数据集的核心特征在于其多模态与高精度的数据组织。它提供了三路同步的RGB视频流，包括手眼视角与左右全局视角，分辨率均为256x256，编码格式统一，确保了视觉信息的一致性。同时，数据集整合了16维的机器人状态向量与12维的动作空间，并附带即时奖励与终止标志，为策略学习提供了丰富的监督信号。所有数据均以Parquet格式高效存储，并配有详细的元数据描述，支持大规模分布式处理与快速加载。

使用方法

研究人员可通过HuggingFace平台直接访问该数据集，利用LeRobot提供的标准数据加载接口读取Parquet文件。典型的使用流程包括按分块索引加载训练集，提取观测图像、状态及动作序列，进而构建端到端的策略模型。由于数据集已预设为训练分割，用户可直接将其应用于行为克隆、离线强化学习等任务，通过帧索引与时间戳对齐多模态信息，实现高效的数据流水线与模型迭代。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的研究依赖于高质量、大规模的真实世界交互数据。robocasa_target_DeliverStraw数据集作为RoboCasa项目的一部分，由HuggingFace的LeRobot团队构建，专注于机器人操作任务中的目标导向行为。该数据集围绕PandaOmron机器人执行“递送吸管”这一具体任务，收录了504个完整交互片段，共计超过43万帧的多视角视觉观测与状态动作序列。其核心研究问题在于如何通过真实物理环境下的演示数据，提升机器人对复杂操作任务的泛化能力与适应性，为机器人自主执行日常物品操控任务提供了宝贵的实证基础。

当前挑战

该数据集旨在解决机器人操作任务中模仿学习与策略泛化的核心挑战，即如何从有限的人类演示中学习鲁棒且可迁移的技能。具体而言，挑战体现在机器人需在动态环境中准确理解任务语义，并协调多模态感知与精细动作控制以完成物品递送。在构建过程中，数据采集面临真实物理交互的复杂性，包括传感器同步、多视角视频数据的高效存储与对齐，以及确保演示轨迹在状态-动作空间中的一致性与完整性。此外，标注大规模交互数据所需的人力与时间成本，以及保持任务多样性与数据质量之间的平衡，亦是构建过程中的显著难点。

常用场景

经典使用场景

在机器人学习领域，robocasa_target_DeliverStraw数据集为模仿学习与强化学习算法提供了丰富的训练资源。该数据集聚焦于单一任务——递送吸管，通过PandaOmron机器人采集了504个完整交互序列，包含多视角视觉观测、机器人状态及动作数据。研究者可借助这些时序数据，训练端到端的策略网络，使机器人学习从环境感知到动作执行的映射关系，从而掌握精准抓取与递送物体的技能。

实际应用

在实际场景中，此类数据集能够加速服务机器人或工业机械臂的技能部署。例如，在餐饮配送、医疗辅具传递或轻型装配线上，机器人需要可靠地完成物品递送操作。利用本数据集训练的模型，可提升机器人在动态环境中的适应性与鲁棒性，降低人工编程成本，为实现自动化物料处理与人性化服务提供技术支撑。

衍生相关工作

围绕robocasa_target_DeliverStraw及其所属的LeRobot项目，已衍生出多项经典研究工作。这些工作主要集中于视觉运动策略学习、多任务泛化框架以及仿真到实物的迁移方法。例如，基于此类数据集的基准测试推动了行为克隆、离线强化学习等算法的性能比较与改进，同时也催生了用于机器人操作的新颖神经网络架构与预训练范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集