robocasa_target_PrepareCoffee
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/BrunoM42/robocasa_target_PrepareCoffee
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,专为机器人技术研究设计,采用apache-2.0许可证。数据集包含514个 episodes 和279,534帧数据,主要针对PandaOmron机器人。数据以parquet格式存储,包含视频和多种特征数据。视频数据分辨率为256x256,帧率为20fps,采用h264编码和yuv420p像素格式。特征数据包括机器人状态观察(16维浮点数)、动作(12维浮点数)、奖励(1维浮点数)等。数据集适用于机器人控制、行为学习等相关研究任务。
创建时间:
2026-03-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: BrunoM42/robocasa_target_PrepareCoffee
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
数据集规模与结构
- 总任务数: 1
- 总情节数: 514
- 总帧数: 279534
- 数据文件大小: 100 MB
- 视频文件大小: 200 MB
- 数据格式: Parquet
- 视频格式: MP4
- 数据分块大小: 1000
- 帧率: 20 FPS
- 数据分割: 训练集 (0:514)
机器人配置
- 机器人类型: PandaOmron
- 代码库版本: v3.0
数据特征
观测特征
- observation.images.robot0_eye_in_hand: 视频数据,形状 (256, 256, 3),编码 H.264,像素格式 yuv420p,非深度图,无音频。
- observation.images.robot0_agentview_left: 视频数据,形状 (256, 256, 3),编码 H.264,像素格式 yuv420p,非深度图,无音频。
- observation.images.robot0_agentview_right: 视频数据,形状 (256, 256, 3),编码 H.264,像素格式 yuv420p,非深度图,无音频。
- observation.state: 浮点数组,形状 (16,),帧率 20 FPS。
动作与标注特征
- action: 浮点数组,形状 (12,),帧率 20 FPS。
- annotation.human.task_description: 整型数组,形状 (1,),帧率 20 FPS。
- annotation.human.task_name: 整型数组,形状 (1,),帧率 20 FPS。
元数据与状态特征
- next.reward: 浮点数组,形状 (1,),帧率 20 FPS。
- next.done: 布尔数组,形状 (1,),帧率 20 FPS。
- timestamp: 浮点数组,形状 (1,),帧率 20 FPS。
- frame_index: 整型数组,形状 (1,),帧率 20 FPS。
- episode_index: 整型数组,形状 (1,),帧率 20 FPS。
- index: 整型数组,形状 (1,),帧率 20 FPS。
- task_index: 整型数组,形状 (1,),帧率 20 FPS。
文件路径模式
- 数据文件路径模式:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频文件路径模式:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
引用信息
- 主页: 未提供
- 论文: 未提供
- BibTeX 引用: 未提供
搜集汇总
数据集介绍

构建方式
在机器人操作学习领域,robocasa_target_PrepareCoffee数据集依托LeRobot平台构建,专注于咖啡制备这一日常任务。该数据集通过PandaOmron机器人采集了514条完整轨迹,总计279,534帧数据,以每秒20帧的频率记录。数据以分块形式存储于Parquet文件中,每块包含1000帧,确保了高效的数据管理与读取。观测信息融合了机器人手眼视角与全局视角的双目视觉输入,同时整合了机器人的状态向量与动作指令,为模仿学习与强化学习算法提供了多模态交互序列。
特点
该数据集的核心特征在于其丰富的多模态表示与精细的任务标注。视觉观测包含三路同步视频流:手眼相机与左右全局视角,均以256x256分辨率、H.264编码的RGB格式呈现,提供了机器人操作的全方位视觉上下文。数据集的结构化设计体现在每帧数据均关联了机器人的16维状态向量、12维动作指令以及任务描述索引,并辅以奖励信号与终止标志,形成了完整的马尔可夫决策过程记录。其数据规模适中,兼顾了训练效率与任务复杂性,特别适用于家庭场景下的长时程操作策略研究。
使用方法
研究人员可通过LeRobot库或兼容框架直接加载该数据集,其标准化的Parquet格式与清晰的元数据结构简化了数据访问流程。数据集已预分为训练集,涵盖全部514条轨迹,用户可依据帧索引或片段索引进行批量或流式读取。在应用层面,该数据集支持端到端的策略学习、行为克隆、逆强化学习等多种范式,其多视角视频与状态动作对可用于训练视觉运动控制模型。同时,任务描述标注为语言条件策略的探索提供了基础,使模型能够理解并执行“制备咖啡”这类高层级语义指令。
背景与挑战
背景概述
在机器人学习领域,具身智能的进步依赖于高质量、大规模的真实世界交互数据。robocasa_target_PrepareCoffee数据集应运而生,专注于家庭环境中的复杂操作任务,特别是咖啡制备这一日常活动。该数据集由LeRobot项目团队构建,采用PandaOmron机器人平台,收录了514个完整交互序列,涵盖超过27万帧的多视角视觉观测与机器人状态数据。其核心研究问题在于如何通过真实物理交互数据,推动机器人策略学习从仿真向现实迁移,提升在非结构化环境中的任务泛化能力。这一数据集的发布,为机器人模仿学习与强化学习算法提供了宝贵的现实基准,加速了家庭服务机器人的实用化进程。
当前挑战
robocasa_target_PrepareCoffee数据集旨在解决家庭环境中长时程、多步骤操作任务的机器人学习挑战,其核心是让机器人在动态、非结构化的场景中理解并执行如咖啡制备这类需精细操作与顺序逻辑的任务。构建过程中面临多重挑战:真实世界数据采集需协调机器人硬件、传感器同步与场景布置,确保数据的一致性与安全性;多模态数据(如手眼相机、全局视角视频、机器人状态)的时序对齐与高效存储是一大难点;此外,标注复杂任务的高层语义(如任务描述与名称)并保持其与底层动作的对应关系,也增加了数据处理的复杂度。这些挑战共同指向了构建大规模、高质量现实世界机器人数据集的普遍难题。
常用场景
经典使用场景
在机器人操作领域,robocasa_target_PrepareCoffee数据集为研究机器人执行复杂日常任务提供了关键支持。该数据集聚焦于咖啡制备这一典型场景,通过PandaOmron机器人采集了514个完整操作序列,包含多视角视觉观测、机器人状态及动作数据。其经典应用在于训练和评估机器人模仿学习与强化学习算法,使机器人能够从人类演示中学习精细的抓取、放置和操作技能,模拟真实世界中的多步骤任务执行过程。
实际应用
在实际应用层面,robocasa_target_PrepareCoffee数据集直接服务于家庭服务机器人与工业协作机器人的技能开发。基于此数据集训练的模型可赋能机器人在家庭环境中自主完成咖啡冲泡等日常服务,或在工业场景中实现类似的精细装配流程。这不仅提升了机器人在复杂环境中的适应性和实用性,也为机器人普及到更多生活与生产领域奠定了技术基础。
衍生相关工作
围绕该数据集,已衍生出一系列专注于机器人技能学习的经典研究工作。这些工作通常利用其多模态序列数据,开发先进的模仿学习框架、视觉运动策略网络以及分层强化学习模型。相关研究进一步拓展了数据高效利用、跨领域策略迁移以及长期任务规划等方向,形成了以实际操作为导向的算法评估体系,持续推动着机器人自主操作能力的边界。
以上内容由遇见数据集搜集并总结生成



