five

robocasa_target_PreSoakPan

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/BrunoM42/robocasa_target_PreSoakPan
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由LeRobot创建,主要用于机器人技术领域。数据集包含501个episodes,总计395501帧,采样频率为20fps。数据以Parquet文件格式存储,分为训练集(0:501)。数据集包含来自PandaOmron机器人的多视角视频观察(256x256分辨率,h264编码,yuv420p像素格式),状态观测(16维浮点数),动作(12维浮点数),奖励(1维浮点数)以及其他元数据(如时间戳、帧索引、episode索引等)。视频文件总大小为200MB,数据文件总大小为100MB。适用于机器人控制、强化学习等任务。

This dataset was created by LeRobot and is primarily intended for applications in the robotics domain. It contains 501 episodes, totaling 395,501 frames with a sampling rate of 20 fps. The data is stored in Parquet file format, split into the training set (0:501). It includes multi-view video observations from the PandaOmron robot (resolution: 256×256, encoded with H.264, pixel format: yuv420p), state observations (16-dimensional floating-point values), actions (12-dimensional floating-point values), rewards (1-dimensional floating-point value), as well as other metadata such as timestamps, frame indices, episode indices, and so on. The total size of the video files is 200 MB, while the total size of the data files is 100 MB. This dataset is applicable to tasks such as robot control and reinforcement learning.
创建时间:
2026-03-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称: BrunoM42/robocasa_target_PreSoakPan
  • 创建工具: 使用 LeRobot 创建
  • 许可证: Apache-2.0
  • 任务类别: 机器人学
  • 标签: LeRobot

数据集结构

  • 总任务数: 1
  • 总情节数: 501
  • 总帧数: 395,501
  • 数据块大小: 1000
  • 帧率: 20 FPS
  • 数据分割: 训练集(索引 0 至 501)
  • 数据文件大小: 100 MB
  • 视频文件大小: 200 MB
  • 机器人类型: PandaOmron
  • 代码库版本: v3.0

数据文件与视频文件路径

  • 数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征描述

图像观测特征

  • observation.images.robot0_eye_in_hand: 视频数据,形状为 [256, 256, 3],帧率 20 FPS,编码格式 H.264,像素格式 YUV420p,非深度图,无音频。
  • observation.images.robot0_agentview_left: 视频数据,形状为 [256, 256, 3],帧率 20 FPS,编码格式 H.264,像素格式 YUV420p,非深度图,无音频。
  • observation.images.robot0_agentview_right: 视频数据,形状为 [256, 256, 3],帧率 20 FPS,编码格式 H.264,像素格式 YUV420p,非深度图,无音频。

标注特征

  • annotation.human.task_description: 整数类型,形状为 [1],帧率 20 FPS。
  • annotation.human.task_name: 整数类型,形状为 [1],帧率 20 FPS。

状态与动作特征

  • observation.state: 浮点类型,形状为 [16],帧率 20 FPS。
  • action: 浮点类型,形状为 [12],帧率 20 FPS。

奖励与完成标志

  • next.reward: 浮点类型,形状为 [1],帧率 20 FPS。
  • next.done: 布尔类型,形状为 [1],帧率 20 FPS。

索引与时间戳特征

  • timestamp: 浮点类型,形状为 [1],帧率 20 FPS。
  • frame_index: 整数类型,形状为 [1],帧率 20 FPS。
  • episode_index: 整数类型,形状为 [1],帧率 20 FPS。
  • index: 整数类型,形状为 [1],帧率 20 FPS。
  • task_index: 整数类型,形状为 [1],帧率 20 FPS。

引用信息

  • 主页: 未提供
  • 论文: 未提供
  • BibTeX 引用格式: 未提供
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,robocasa_target_PreSoakPan数据集依托LeRobot平台构建,采用PandaOmron机器人执行单一任务。数据采集过程涉及501个完整交互序列,总计395,501帧,以每秒20帧的速率记录。观测数据包含机器人手眼视角与全局视角的双目视觉信息,均编码为256×256分辨率的RGB视频流,并辅以16维状态向量与12维动作向量。数据以分块形式存储于Parquet格式文件中,每块约1000帧,便于高效访问与管理。
特点
该数据集以多模态同步记录为显著特征,同时囊括视觉感知、状态观测与动作执行信息。三路并行视频流分别提供手部特写与全局双视角观测,形成互补的视觉表征体系。时序数据标注精细,每帧均关联奖励信号、终止标志及时间戳索引,支持强化学习与行为克隆算法的训练需求。数据规模适中,包含约100MB的结构化数据与200MB的视频资产,在保证信息密度的同时兼顾存储效率。
使用方法
研究人员可通过LeRobot框架加载该数据集,利用标准化的数据接口访问多模态序列。训练集涵盖全部501个交互轨迹,适用于端到端机器人策略学习。数据读取时需注意时序对齐,视频流与状态动作向量均以20Hz频率同步采样。典型应用场景包括视觉运动策略建模、模仿学习算法验证,以及跨视角感知融合研究。数据分块存储机制支持流式加载,便于大规模分布式训练场景下的内存优化。
背景与挑战
背景概述
在机器人学习领域,具身智能的推进亟需大规模、高质量的真实世界交互数据作为支撑。robocasa_target_PreSoakPan数据集应运而生,它依托于LeRobot开源框架,由HuggingFace社区贡献者构建,专注于模拟家庭环境中的特定操作任务——预浸泡锅具。该数据集收录了501条完整交互轨迹,涵盖近四十万帧多视角视觉观测与机器人状态动作序列,旨在为机器人策略学习提供丰富的监督信号。其核心研究问题聚焦于复杂场景下的长时程任务泛化能力,通过结构化数据记录推动模仿学习与强化学习算法的边界拓展,对家庭服务机器人的实用化部署具有显著影响力。
当前挑战
该数据集致力于解决机器人操作任务中长时程、多步骤规划的挑战,尤其在非结构化家庭环境下,机器人需依据视觉输入理解物体属性并执行精细动作。构建过程中面临多重困难:真实世界数据采集需协调机器人硬件同步与传感器校准,确保多视角视频流与状态数据的时间对齐;数据标注需定义清晰的任务边界与奖励信号,以支持有效的策略优化;此外,大规模交互数据的存储与高效检索要求设计紧凑的序列化格式,平衡数据粒度与访问速度。这些挑战共同构成了数据集构建与算法验证的关键瓶颈。
常用场景
经典使用场景
在机器人操作学习领域,robocasa_target_PreSoakPan数据集聚焦于模拟家庭环境中的特定任务,即预浸泡锅具的精细操作。该数据集通过提供多视角视觉观测、机器人状态与动作序列,为模仿学习与强化学习算法提供了丰富的训练样本。经典使用场景涉及利用其高帧率视频流和结构化标注,训练机械臂在动态环境中执行复杂的抓取与放置任务,从而推动机器人自主执行日常家务的能力发展。
解决学术问题
该数据集主要解决了机器人学中泛化能力不足与样本效率低下的核心问题。通过提供大规模、多样化的真实世界交互数据,它支持研究人员探索跨任务迁移学习、视觉-动作映射建模以及长期序列预测等前沿方向。其意义在于降低了机器人技能学习的仿真与现实差距,为构建适应复杂非结构化环境的智能体奠定了数据基础,显著促进了具身人工智能的实证研究进展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在端到端视觉运动策略学习领域。例如,结合Transformer架构的时序建模方法,利用其多模态观测数据实现了高效的动作序列生成。同时,基于该数据集的元学习与离线强化学习研究,探索了从有限演示中快速适应新任务的机制。这些工作不仅深化了对机器人技能获取的理解,也为开源机器人社区提供了可复现的基准与算法框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作