robocasa_target_TurnOnElectricKettle
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/BrunoM42/robocasa_target_TurnOnElectricKettle
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的,专为机器人学任务设计,采用Apache-2.0许可证。数据集包含520个 episodes,总计84,679帧,涉及单一任务。数据以parquet格式存储,视频以mp4格式存储。数据集结构包括多个特征,如机器人手眼视角、代理视角左右视图的视频数据(分辨率256x256,3通道,H.264编码,20fps),以及状态观测(16维浮点数)、动作(12维浮点数)、奖励(浮点数)、完成标志(布尔值)等元数据。数据集总大小为100MB的数据文件和200MB的视频文件。适用于机器人控制、行为模仿等研究任务。
创建时间:
2026-03-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: BrunoM42/robocasa_target_TurnOnElectricKettle
- 创建工具: LeRobot
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
数据集规模
- 总情节数: 520
- 总帧数: 84679
- 总任务数: 1
- 数据块大小: 1000
- 帧率: 20 FPS
- 数据文件总大小: 100 MB
- 视频文件总大小: 200 MB
数据划分
- 训练集: 包含全部520个情节。
数据结构与特征
数据存储于Parquet文件中,路径模式为:data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet。
视频存储于MP4文件中,路径模式为:videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4。
观测特征
-
图像观测 (视频格式):
observation.images.robot0_eye_in_hand: 手眼相机图像,分辨率256x256x3。observation.images.robot0_agentview_left: 左代理视角图像,分辨率256x256x3。observation.images.robot0_agentview_right: 右代理视角图像,分辨率256x256x3。- 视频编码信息: 编码格式H.264,像素格式yuv420p,帧率20 FPS,非深度图,无音频。
-
状态观测:
observation.state: 机器人状态,数据类型float64,维度16。
动作与标注
action: 机器人动作,数据类型float64,维度12。annotation.human.task_description: 任务描述,数据类型int64。annotation.human.task_name: 任务名称,数据类型int64。
元数据与索引
next.reward: 奖励信号,数据类型float32。next.done: 情节终止标志,数据类型bool。timestamp: 时间戳,数据类型float32。frame_index: 帧索引,数据类型int64。episode_index: 情节索引,数据类型int64。index: 数据索引,数据类型int64。task_index: 任务索引,数据类型int64。
机器人信息
- 机器人类型: PandaOmron
- 代码库版本: v3.0
引用信息
- 主页: 未提供
- 论文: 未提供
- BibTeX引用格式: 未提供
搜集汇总
数据集介绍

构建方式
在机器人操作任务的数据采集领域,robocasa_target_TurnOnElectricKettle数据集通过LeRobot平台构建,专注于模拟开启电水壶这一具体家庭场景。该数据集采用PandaOmron机器人进行物理交互,以20帧每秒的速率录制了520个完整操作片段,总计84679帧数据。数据以分块形式存储于Parquet文件中,每块包含1000帧,确保了高效的数据管理与访问。同时,数据集提供了多视角的视觉观测,包括机器人手眼相机及左右代理视角,均以256x256分辨率的RGB视频格式保存,辅以机器人状态、动作指令及任务标注等结构化信息,形成了多模态的时序记录。
特点
该数据集的核心特征在于其高度结构化的多模态表示与单一任务的深度覆盖。视觉方面,提供了机器人手眼相机与左右代理视角的三路同步视频流,每路视频均采用h264编码,分辨率统一为256x256,帧率稳定在20fps,确保了视觉信息的连续性与一致性。状态与动作数据以浮点型数组形式呈现,分别刻画了16维的机器人状态与12维的动作空间,并附带即时奖励与终止标志。数据集规模适中,包含520个训练片段,数据文件与视频文件总容量分别为100MB与200MB,所有数据均遵循Apache 2.0许可协议开放使用,为机器人模仿学习与强化学习研究提供了高质量的基准资源。
使用方法
研究人员可利用该数据集进行机器人技能学习的算法开发与验证。数据集以标准化的Parquet格式组织,通过分块索引机制便于流式加载与处理。用户可依据提供的元数据文件解析数据路径,访问多视角视频流与对应的状态动作序列。典型应用包括端到端的策略学习、行为克隆或离线强化学习,其中视觉观测可作为策略网络的输入,而动作与奖励信号则用于监督训练或价值函数估计。由于数据集仅包含训练划分,使用者需自行设计评估方案,例如通过交叉验证或仿真环境迁移来测试学得策略的泛化能力。数据集的紧凑结构与清晰标注使其易于集成至现有的机器学习框架中,加速家庭场景下机器人操作任务的研究进程。
背景与挑战
背景概述
在机器人学习领域,模拟真实世界中的复杂操作任务一直是核心研究议题。robocasa_target_TurnOnElectricKettle数据集由LeRobot团队构建,专注于家用电器操作场景,具体针对电水壶开启这一精细动作。该数据集收录了520个完整操作片段,涵盖超过八万帧图像数据,采用PandaOmron机器人平台采集,以多视角视频流与机器人状态信息相结合的形式呈现。其设计旨在推动机器人视觉感知与动作规划算法的进步,尤其在非结构化家庭环境中的物体交互任务上,为模仿学习与强化学习研究提供了宝贵的实验资源。
当前挑战
该数据集致力于解决机器人操作任务中的视觉动作对应与泛化能力挑战,要求算法能够从多视角视觉输入中理解物体状态并生成精确的控制指令。构建过程中面临多重困难:真实世界操作数据的采集需协调机器人硬件、传感器同步与场景稳定性,确保数据的一致性与安全性;视频数据的高维度特性带来了存储与处理压力,同时标注长期动作序列的时序逻辑与任务边界亦是一项繁重工作。此外,如何在有限任务实例中捕捉环境变化与操作多样性,以支持模型在未见场景中的稳健表现,仍是亟待突破的瓶颈。
常用场景
经典使用场景
在机器人操作学习领域,robocasa_target_TurnOnElectricKettle数据集聚焦于家庭环境中的日常任务执行。该数据集通过记录PandaOmron机械臂执行开启电水壶的完整过程,提供了丰富的视觉观测与动作序列数据。其经典使用场景在于训练机器人从视觉输入中理解物体状态并执行精确操作,例如识别水壶位置、抓取壶盖或按下开关,从而推动视觉-动作映射模型的发展。
实际应用
在实际应用中,robocasa_target_TurnOnElectricKettle数据集直接服务于家庭服务机器人的开发与优化。基于该数据集训练的模型能够赋能机器人在真实厨房环境中执行电器操作任务,提升生活辅助自动化的可靠性。这为老年照护、智能家居等场景提供了技术支撑,推动机器人从实验室演示走向日常实用化。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,主要集中在机器人操作策略学习领域。例如,基于视觉的模仿学习框架利用其多视角视频数据训练行为克隆模型;深度强化学习算法则借助其状态-动作对优化长期任务规划。这些工作进一步拓展了数据集的用途,催生了如跨模态表示学习、稀疏奖励下的策略探索等创新方向。
以上内容由遇见数据集搜集并总结生成



