BrunoM42/robocasa_target_PreSoakPan

Name: BrunoM42/robocasa_target_PreSoakPan
Creator: BrunoM42
Published: 2026-03-28 15:34:32
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/BrunoM42/robocasa_target_PreSoakPan

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "PandaOmron", "total_episodes": 501, "total_frames": 395501, "total_tasks": 1, "chunks_size": 1000, "fps": 20, "splits": { "train": "0:501" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "observation.images.robot0_eye_in_hand": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.robot0_agentview_left": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "observation.images.robot0_agentview_right": { "dtype": "video", "shape": [ 256, 256, 3 ], "names": [ "height", "width", "channel" ], "video_info": { "video.fps": 20, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false }, "info": { "video.height": 256, "video.width": 256, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 20, "video.channels": 3, "has_audio": false } }, "annotation.human.task_description": { "dtype": "int64", "shape": [ 1 ], "fps": 20 }, "annotation.human.task_name": { "dtype": "int64", "shape": [ 1 ], "fps": 20 }, "observation.state": { "dtype": "float64", "shape": [ 16 ], "fps": 20 }, "action": { "dtype": "float64", "shape": [ 12 ], "fps": 20 }, "next.reward": { "dtype": "float32", "shape": [ 1 ], "fps": 20 }, "next.done": { "dtype": "bool", "shape": [ 1 ], "fps": 20 }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null, "fps": 20 }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null, "fps": 20 } }, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200 } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

BrunoM42

搜集汇总

数据集介绍

构建方式

在机器人操作任务数据集的构建领域，robocasa_target_PreSoakPan数据集依托LeRobot框架精心构建。该数据集通过PandaOmron机器人平台采集了501条完整任务轨迹，总计包含395,501帧数据，并以20帧每秒的速率记录。数据以分块形式组织，每块包含1000帧，存储为Parquet格式，确保了高效的数据存取与处理。多视角视觉信息通过机器人手眼相机及左右代理视角相机捕获，形成256x256分辨率的RGB视频流，为模型提供了丰富的环境感知输入。

特点

该数据集在机器人学习领域展现出显著特点，其核心在于多模态数据的深度融合。视觉层面提供三路同步视频流，分别从手眼相机和双代理视角捕捉操作场景，每路视频均采用h264编码并保持20帧率的一致性。状态与动作空间分别以16维和12维向量表征，辅以奖励信号和终止标志，构成了完整的强化学习数据框架。数据集规模适中，包含约300MB的结构化数据与200MB的视频资源，所有数据均以时间戳和索引严格对齐，支持端到端的策略学习与行为克隆研究。

使用方法

针对机器人模仿学习与强化学习的研究需求，该数据集提供了标准化的使用路径。研究者可通过LeRobot库直接加载数据，利用预定义的训练分割方案访问全部501条轨迹。每帧数据包含同步的多视角图像、机器人状态、执行动作及后续奖励，支持时序建模与跨模态对齐分析。视频数据可通过指定路径流式读取，而结构化特征则支持批量采样与帧级检索。该设计便于开展视觉运动策略训练、行为表征分析等任务，为家庭环境下的餐具预处理操作研究提供了高质量基准。

背景与挑战

背景概述

在机器人操作领域，模拟真实世界复杂任务的数据集对于推动具身智能的发展至关重要。robocasa_target_PreSoakPan数据集作为LeRobot项目的一部分，专注于机器人执行特定家务任务——预浸泡锅具——的数据收集。该数据集由HuggingFace社区基于开源机器人学习框架LeRobot构建，采用PandaOmron机器人平台，记录了501个完整交互序列，共计近40万帧的多视角视觉观测、机器人状态与动作数据。其核心研究问题在于如何通过大规模、高质量的演示数据，训练机器人理解和执行精细的物体操作任务，从而提升机器人在非结构化家庭环境中的适应性与泛化能力。此类数据集的出现，为机器人模仿学习与强化学习算法的训练与评估提供了宝贵的现实世界基准，加速了服务机器人从实验室走向实际应用的进程。

当前挑战

该数据集旨在解决机器人操作中针对特定、细粒度任务（如处理厨房器皿）的学习挑战，其核心难题在于如何让机器人从视觉观察中理解任务语义，并生成精确、安全的连续控制动作。这要求模型具备对物体属性、物理交互及任务目标的深度理解。在数据集构建层面，挑战同样显著：首先，在真实或高度仿真的环境中采集大规模、无损伤的机器人操作数据成本高昂且耗时；其次，确保多模态数据（如多视角视频、状态、动作）的精确时间同步与对齐是一项复杂工程；再者，为每个交互片段提供准确、一致的任务标注（如任务描述与名称）需要大量人工介入，容易引入主观偏差。此外，数据集的规模与多样性直接制约了学习模型的泛化性能，如何高效扩展数据覆盖更多任务变体与环境扰动，是持续面临的挑战。

常用场景

经典使用场景

在机器人操作学习领域，robocasa_target_PreSoakPan数据集聚焦于家庭环境中的特定任务——预浸泡锅具，为机器人模仿学习提供了丰富的多模态数据。该数据集通过PandaOmron机器人采集了501个完整操作序列，包含手眼相机和全局视角的双目视觉观测，以及高维状态与动作信息，使得研究者能够训练模型理解并执行复杂的物体交互动作。经典使用场景涉及基于视觉的端到端策略学习，模型从视频流中直接推断控制指令，实现锅具抓取与浸泡的自动化流程，为家庭服务机器人的技能泛化奠定基础。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在视觉运动策略学习与多模态表示学习领域。例如，利用其多视角视频序列进行时空特征提取的研究，改善了机器人对透明或反光物体的感知鲁棒性。同时，基于该数据集的离线强化学习算法探索，推动了在安全约束下从历史数据中学习高效策略的进展。这些工作不仅扩展了数据集的学术价值，也为后续更复杂的家庭操作任务数据集构建提供了方法论借鉴。

数据集最近研究