robocasa_target_PickPlaceSinkToCounter

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_PickPlaceSinkToCounter

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域的研究和应用。数据集包含501个总片段，194,952帧数据，涵盖34个不同任务。数据以20fps的帧率采集，存储为parquet格式文件，总数据量约为100MB，视频文件约为200MB。数据集包含多种观测数据，如机器人手眼视图、代理视图（左右）的视频数据（256x256分辨率，H.264编码），以及机器人状态（16维浮点数）、动作（12维浮点数）、奖励（浮点数）、完成标志（布尔值）等字段。此外，还包含任务描述和任务名称的标注信息。数据集适用于机器人控制、强化学习、计算机视觉等任务。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称: BrunoM42/robocasa_target_PickPlaceSinkToCounter
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 501
总帧数: 194,952
总任务数: 34
数据文件总大小: 100 MB
视频文件总大小: 200 MB

数据结构与格式

数据格式: Parquet 文件
数据组织: 数据被分块存储，路径模式为 data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频组织: 视频被分块存储，路径模式为 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
帧率: 20 FPS
分块大小: 1000
数据划分: 全部数据（501个情节）均用于训练

数据特征

数据集包含以下主要特征：

观测数据

图像观测:
- observation.images.robot0_eye_in_hand: 机器人手眼相机视频，形状为 (256, 256, 3)，H.264编码。
- observation.images.robot0_agentview_left: 机器人左代理视角视频，形状为 (256, 256, 3)，H.264编码。
- observation.images.robot0_agentview_right: 机器人右代理视角视频，形状为 (256, 256, 3)，H.264编码。
状态观测:
- observation.state: 机器人状态向量，形状为 (16,)，数据类型为 float64。

动作与标注

action: 机器人动作向量，形状为 (12,)，数据类型为 float64。
annotation.human.task_description: 任务描述标注，形状为 (1,)，数据类型为 int64。
annotation.human.task_name: 任务名称标注，形状为 (1,)，数据类型为 int64。

元数据与索引

next.reward: 奖励信号，形状为 (1,)，数据类型为 float32。
next.done: 情节终止标志，形状为 (1,)，数据类型为 bool。
timestamp: 时间戳，形状为 (1,)，数据类型为 float32。
frame_index: 帧索引，形状为 (1,)，数据类型为 int64。
episode_index: 情节索引，形状为 (1,)，数据类型为 int64。
index: 数据索引，形状为 (1,)，数据类型为 int64。
task_index: 任务索引，形状为 (1,)，数据类型为 int64。

技术详情

代码库版本: v3.0
机器人类型: PandaOmron
所有特征帧率: 20 FPS

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX 引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作任务研究领域，robocasa_target_PickPlaceSinkToCounter数据集依托LeRobot框架构建，专注于模拟从水槽到台面的物品拾放场景。该数据集通过PandaOmron机器人平台采集，总计包含501个完整操作序列，覆盖34种不同任务变体，并以20帧每秒的速率记录多视角视觉观测与机器人状态数据。数据以分块Parquet格式存储，辅以MP4格式视频流，确保了大规模时序数据的高效组织与访问。

特点

该数据集的核心特征在于其丰富的多模态信息融合与精细的任务标注。它提供了机器人眼在手、左代理视角和右代理视角的三路同步RGB视频流，每路分辨率均为256x256，为视觉感知模型提供了立体化输入。同时，数据集包含16维的机器人状态向量、12维的动作序列以及即时奖励与终止标志，形成了完整的强化学习环境反馈。所有数据均以20Hz频率对齐，并附带任务描述与名称的索引标注，支持对长时序操作行为的深度分析。

使用方法

为有效利用该数据集，研究者可通过LeRobot库或直接加载Parquet文件进行访问。数据已预划分为训练集，涵盖全部501个序列，用户可依据帧索引、任务索引等元数据灵活提取特定片段。多路视频可通过指定视频键与分块路径流式读取，而状态、动作等数值特征则支持批量加载以适配不同机器学习框架。该数据集适用于模仿学习、强化学习及跨模态表征学习等研究方向，为算法验证与比较提供了标准化基准。

背景与挑战

背景概述

在机器人操作学习领域，构建能够处理复杂日常任务的数据集是推动智能体泛化能力发展的关键。robocasa_target_PickPlaceSinkToCounter数据集由HuggingFace的LeRobot项目创建，专注于模拟厨房环境中从水槽到台面的物品拾放任务。该数据集采用PandaOmron机器人平台，收录了501个交互轨迹，涵盖34种不同任务，通过多视角视觉观测与状态动作序列，为模仿学习与强化学习算法提供了丰富的训练资源。其设计旨在应对家庭服务机器人执行精细化操作时的感知与决策难题，对提升机器人在非结构化环境中的适应性与可靠性具有显著意义。

当前挑战

该数据集致力于解决机器人操作中目标导向的拾放任务挑战，尤其在动态厨房场景下，需克服物体识别、抓取姿态估计、避障规划以及任务序列泛化等核心难题。构建过程中，数据采集面临真实世界物理交互的高成本与安全性约束，确保多传感器同步与高保真度视觉数据的对齐亦存在技术复杂性。此外，标注大规模连续动作空间与状态转移关系，并维持数据分布的多样性与平衡性，同样是数据集构建中需应对的关键挑战。

常用场景

经典使用场景

在机器人操作领域，robocasa_target_PickPlaceSinkToCounter数据集以其丰富的视觉与动作序列，为模仿学习与强化学习算法的训练提供了关键支撑。该数据集聚焦于从水槽拾取物品并放置到台面的具体任务，通过多视角摄像头捕捉高分辨率图像，结合机器人状态与动作数据，构建了逼真的家庭环境交互场景。研究者利用这些数据训练模型学习复杂的抓取与放置策略，尤其在涉及物体转移和空间导航的日常操作中，数据集的高质量标注与结构化格式使得算法能够有效解析任务意图并生成精确的控制指令。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在视觉运动策略学习与多任务泛化领域。例如，基于模仿学习的框架利用其演示数据训练行为克隆模型，实现从观察到动作的直接映射。强化学习研究则结合离线数据与在线交互，探索高效探索策略。此外，数据驱动的表征学习方法从多视角视频中提取鲁棒特征，增强模型对遮挡和光照变化的适应性。这些工作共同推动了机器人感知与控制一体化的发展，为复杂操作任务的自动化提供了理论依据与实践工具。

数据集最近研究