robocasa_target_PickPlaceToasterToCounter
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/BrunoM42/robocasa_target_PickPlaceToasterToCounter
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的,专为机器人学相关任务设计,采用Apache-2.0许可证。数据集包含512个 episodes,总计148,353帧,涉及1个任务。数据以parquet格式存储,分为训练集(全部512个episodes)。数据集包含多种特征,包括来自机器人手眼和代理视角的视频数据(256x256分辨率,20fps,H.264编码),以及机器人状态、动作、奖励等数值数据。视频数据总大小为200MB,其他数据大小为100MB。该数据集适用于机器人控制、行为学习等研究领域。
创建时间:
2026-03-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: BrunoM42/robocasa_target_PickPlaceToasterToCounter
- 任务类别: 机器人学
- 标签: LeRobot
- 许可证: Apache-2.0
- 创建工具: LeRobot
数据集规模
- 总任务数: 1
- 总情节数: 512
- 总帧数: 148,353
- 数据文件大小: 100 MB
- 视频文件大小: 200 MB
数据结构
- 数据格式: Parquet 文件
- 数据组织: 数据存储在
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet路径中 - 视频组织: 视频存储在
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4路径中 - 数据分块大小: 1000
- 帧率: 20 FPS
- 数据划分: 全部数据(0:512)用于训练
特征字段
图像观测
- observation.images.robot0_eye_in_hand: 视频数据,形状为 [256, 256, 3],编码为 H.264,无音频
- observation.images.robot0_agentview_left: 视频数据,形状为 [256, 256, 3],编码为 H.264,无音频
- observation.images.robot0_agentview_right: 视频数据,形状为 [256, 256, 3],编码为 H.264,无音频
状态与动作
- observation.state: 浮点数组,形状为 [16]
- action: 浮点数组,形状为 [12]
任务标注
- annotation.human.task_description: 整型数组,形状为 [1]
- annotation.human.task_name: 整型数组,形状为 [1]
元数据与索引
- next.reward: 浮点数组,形状为 [1]
- next.done: 布尔数组,形状为 [1]
- timestamp: 浮点数组,形状为 [1]
- frame_index: 整型数组,形状为 [1]
- episode_index: 整型数组,形状为 [1]
- index: 整型数组,形状为 [1]
- task_index: 整型数组,形状为 [1]
技术细节
- 代码库版本: v3.0
- 机器人类型: PandaOmron
- 所有特征帧率: 20 FPS
引用信息
- 主页: 未提供
- 论文: 未提供
- BibTeX 引用: 未提供
搜集汇总
数据集介绍

构建方式
在机器人操作任务领域,robocasa_target_PickPlaceToasterToCounter数据集依托LeRobot平台构建,专注于单一任务场景下的数据采集。该数据集通过PandaOmron机器人执行将烤面包机放置到台面的操作,以20帧每秒的速率记录512个完整交互片段,累计生成超过14.8万帧数据。数据以分块形式存储于Parquet文件中,每块包含1000帧,同时配套保存了多视角视频流,确保了时序动作与视觉观测的同步对齐。
特点
该数据集的核心特征在于其多模态数据结构的完整性,不仅包含机器人本体状态与动作向量,还集成了手眼相机与左右全局视角的三路高清视频流。每路视频均以256x256分辨率、H.264编码格式记录,提供了丰富的视觉上下文信息。数据字段涵盖任务描述、奖励信号及终止标志,形成了状态-动作-观测的闭环序列,适用于模仿学习与强化学习算法的训练与验证。
使用方法
研究人员可通过加载Parquet数据文件直接访问结构化观测与动作序列,结合附带的MP4视频文件进行视觉信息融合分析。数据集已预设训练集划分,支持按片段索引或帧索引进行切片读取。在使用过程中,可依据任务名称与描述字段筛选特定交互情景,利用时间戳与帧索引实现多模态数据的时间对齐,为机器人操作策略的端到端训练提供标准化输入接口。
背景与挑战
背景概述
在机器人操作领域,模仿学习与强化学习的发展亟需高质量、多样化的真实世界交互数据作为支撑。robocasa_target_PickPlaceToasterToCounter数据集应运而生,它由HuggingFace的LeRobot项目团队创建,专注于特定任务——将烤面包机从一处拾取并放置到柜台上的操作。该数据集采用PandaOmron机器人平台,以20帧每秒的速率采集了512条完整轨迹,共计超过14.8万帧数据,涵盖了多视角视觉观察、机器人状态、动作指令及奖励信号等多模态信息。其构建旨在为机器人灵巧操作研究提供标准化基准,推动端到端策略学习在复杂物理环境中的泛化能力。
当前挑战
该数据集致力于解决机器人操作中面向目标的拾放任务所固有的挑战,例如在非结构化环境中处理物体的精确抓取、安全转移与稳定放置,这要求模型理解三维几何、物理动力学及任务语义。在构建过程中,挑战主要集中于数据采集的规模与质量平衡:需确保大量交互轨迹覆盖操作中的姿态变异与干扰因素,同时维持高精度的时间同步与传感器校准;多路高清视频流与状态数据的实时记录对存储与计算资源构成压力,且人工标注任务描述的一致性也难以保证。这些因素共同构成了数据集在推动机器人学习研究时所面临的核心障碍。
常用场景
经典使用场景
在机器人操作领域,robocasa_target_PickPlaceToasterToCounter数据集为模仿学习与强化学习算法的训练提供了关键支持。该数据集聚焦于单一任务——将烤面包机从初始位置拾取并放置到指定柜台,通过PandaOmron机器人采集的512个完整交互轨迹,包含多视角视觉观察、机器人状态及动作序列,为模型学习复杂抓取与放置策略奠定了数据基础。其结构化视频与状态数据,使得研究者能够深入探索机器人如何在动态环境中执行精细操作,推动家庭服务机器人自主能力的提升。
实际应用
在实际应用中,robocasa_target_PickPlaceToasterToCounter数据集直接服务于家庭自动化与智能服务机器人的开发。基于该数据训练的模型,能够赋能机器人在厨房等日常环境中执行物品整理、餐具摆放等重复性劳动,减轻人力负担。其精细的操作记录为机器人抓取力控制、路径规划与避障算法优化提供了参考,促进机器人在养老助残、智能家居等场景的落地,推动服务机器人向更安全、高效与人性化的方向发展。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,主要集中在机器人模仿学习与视觉运动策略的探索。例如,基于LeRobot框架的后续研究利用其多任务扩展能力,开发了跨领域策略迁移方法;同时,结合深度强化学习算法,研究者构建了端到端的控制模型,实现了在未见环境中的稳健操作。这些工作不仅验证了数据集的实用价值,还推动了机器人学习范式的创新,为更复杂的多步骤操作任务奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



