robocasa_target_TurnOnSinkFaucet
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/BrunoM42/robocasa_target_TurnOnSinkFaucet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,专注于机器人技术领域,采用Apache-2.0许可协议。数据集包含506个总剧集,113,688帧,涉及单一任务,数据以20帧每秒的速率采集。数据结构详细描述了PandaOmron机器人的观测数据,包括来自机器人眼内和代理视角的图像(256x256像素,RGB通道),以及状态、动作、奖励等关键特征。所有数据以parquet格式存储,视频数据以h264编码的mp4格式保存。数据集适用于机器人学习、行为克隆等任务,提供了丰富的观测和动作数据,支持机器人技术的研发和算法训练。
创建时间:
2026-03-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: BrunoM42/robocasa_target_TurnOnSinkFaucet
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 创建工具: LeRobot
数据集规模
- 总任务数: 1
- 总情节数: 506
- 总帧数: 113,688
- 数据文件总大小: 100 MB
- 视频文件总大小: 200 MB
数据结构
- 数据格式: Parquet
- 帧率: 20 FPS
- 分块大小: 1000
- 数据路径模式:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频路径模式:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4 - 数据划分: 全部数据(0:506)用于训练
特征字段
观测特征
-
observation.images.robot0_eye_in_hand
- 数据类型:视频
- 形状:[256, 256, 3]
- 视频编码:h264
- 像素格式:yuv420p
- 非深度图,无音频
-
observation.images.robot0_agentview_left
- 数据类型:视频
- 形状:[256, 256, 3]
- 视频编码:h264
- 像素格式:yuv420p
- 非深度图,无音频
-
observation.images.robot0_agentview_right
- 数据类型:视频
- 形状:[256, 256, 3]
- 视频编码:h264
- 像素格式:yuv420p
- 非深度图,无音频
-
observation.state
- 数据类型:float64
- 形状:[16]
- 帧率:20 FPS
动作与奖励
-
action
- 数据类型:float64
- 形状:[12]
- 帧率:20 FPS
-
next.reward
- 数据类型:float32
- 形状:[1]
- 帧率:20 FPS
-
next.done
- 数据类型:bool
- 形状:[1]
- 帧率:20 FPS
标注信息
-
annotation.human.task_description
- 数据类型:int64
- 形状:[1]
- 帧率:20 FPS
-
annotation.human.task_name
- 数据类型:int64
- 形状:[1]
- 帧率:20 FPS
索引与元数据
-
timestamp
- 数据类型:float32
- 形状:[1]
- 帧率:20 FPS
-
frame_index
- 数据类型:int64
- 形状:[1]
- 帧率:20 FPS
-
episode_index
- 数据类型:int64
- 形状:[1]
- 帧率:20 FPS
-
index
- 数据类型:int64
- 形状:[1]
- 帧率:20 FPS
-
task_index
- 数据类型:int64
- 形状:[1]
- 帧率:20 FPS
技术细节
- 代码库版本: v3.0
- 机器人类型: PandaOmron
缺失信息
- 主页: 未提供
- 论文: 未提供
- 引用格式: 未提供
搜集汇总
数据集介绍

构建方式
在机器人操作学习领域,robocasa_target_TurnOnSinkFaucet数据集通过LeRobot框架构建,专门针对开启水龙头这一具体任务。该数据集采集了506个完整操作片段,总计113,688帧数据,以每秒20帧的速率记录。数据以分块形式存储于Parquet文件中,每块包含1000帧,确保了高效的数据管理与访问。构建过程中采用了PandaOmron机器人平台,同步捕获了机器人手眼视角与全局视角的双目视觉信息,以及机器人的状态与动作序列,为学习模型提供了丰富的多模态交互轨迹。
特点
该数据集的核心特点在于其精细的多模态数据组织与高任务特异性。视觉数据方面,提供了机器人手眼视角及左右全局视角的三路256x256分辨率RGB视频流,编码为H.264格式,确保了视觉信息的完整与清晰。同时,数据集包含了16维的机器人状态观测、12维的动作指令以及即时奖励与终止信号,形成了标准的强化学习数据格式。所有数据均以20Hz的频率严格对齐,并附有帧索引与片段索引,便于进行时序分析与离线策略学习。这种结构化的设计使其成为研究机器人精细操作任务的宝贵资源。
使用方法
使用该数据集时,研究者可通过LeRobot库或直接读取Parquet文件来加载数据。数据集已预分为训练集,涵盖全部506个片段。每个数据块包含同步的时间戳、观测图像、机器人状态、执行动作及后续结果。典型的应用流程包括:解析数据文件以获取图像序列与对应动作,利用这些轨迹训练机器人策略模型,例如行为克隆或离线强化学习算法。由于数据已对齐并包含丰富的标注,研究者可专注于模型架构与学习算法的开发,以验证其在具身智能任务上的泛化与执行能力。
背景与挑战
背景概述
在机器人学习领域,具身智能的进展依赖于高质量、大规模的真实世界交互数据。robocasa_target_TurnOnSinkFaucet数据集由LeRobot项目创建,专注于单一任务——开启水龙头,旨在推动机器人操作技能的数据驱动学习。该数据集包含506个完整交互序列,总计超过11万帧图像,采用PandaOmron机器人平台采集,以20帧每秒的频率记录多视角视觉观察、机器人状态及动作指令。其构建体现了当前机器人模仿学习与强化学习研究对精细化、可泛化操作数据的需求,为算法开发提供了结构化的基准测试环境。
当前挑战
该数据集致力于解决机器人操作任务中视觉-动作映射的复杂性问题,具体挑战在于模型需从高维视觉输入中理解场景几何与物体属性,并生成精确、柔顺的关节控制序列以完成精细操作。构建过程中的挑战涉及真实世界数据采集的稳定性与一致性,包括传感器同步、光照变化干扰以及机械臂运动轨迹的平滑录制。此外,数据标注需确保任务描述与动作序列的准确对应,同时处理大规模视频与状态数据的存储与高效访问,以支撑端到端学习框架的训练需求。
常用场景
经典使用场景
在机器人操作学习领域,robocasa_target_TurnOnSinkFaucet数据集聚焦于家庭环境中水龙头开启这一精细操作任务。该数据集通过提供多视角视觉观测、机器人状态及动作序列,为模仿学习与强化学习算法提供了丰富的训练样本。研究者能够利用这些数据训练模型理解视觉信息与动作执行之间的映射关系,从而实现对水龙头开关的精准控制。
实际应用
在实际应用层面,robocasa_target_TurnOnSinkFaucet数据集直接服务于家庭服务机器人的技能开发。基于该数据集训练的模型可部署于真实厨房或卫生间场景,实现自主开启水龙头的功能,提升机器人在日常辅助任务中的实用性与适应性。这为智能家居系统中机器人的自动化操作提供了可靠的技术验证途径。
衍生相关工作
围绕该数据集,学术界已衍生出多项经典研究工作,主要集中在视觉运动策略优化与多任务学习框架的构建。例如,结合深度强化学习算法改进动作生成的精确度,或利用迁移学习技术将水龙头操作经验拓展至其他家居任务。这些工作显著丰富了机器人操作学习的理论体系与实践方法。
以上内容由遇见数据集搜集并总结生成



