robocasa_target_KettleBoiling

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_KettleBoiling

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术任务设计。数据集采用Apache-2.0许可证，包含501个episodes和228349帧数据，帧率为20fps。数据存储为parquet格式，视频文件为mp4格式。数据集结构详细描述了各种观察特征（如机器人手眼视图、代理视图等）、动作、奖励和时间戳等，每个特征都有明确的数据类型、形状和视频信息（如分辨率、编解码器、帧率等）。数据集总大小为100MB（数据文件）和200MB（视频文件）。适用于机器人控制、视觉导航等任务。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称: BrunoM42/robocasa_target_KettleBoiling
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总任务数: 1
总情节数: 501
总帧数: 228,349
数据块大小: 1000
帧率: 20 FPS
数据文件总大小: 100 MB
视频文件总大小: 200 MB

数据集结构

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分: 所有501个情节均用于训练。

特征字段

图像观测

observation.images.robot0_eye_in_hand: 视频数据，形状 (256, 256, 3)，H.264编码，YUV420p像素格式，20 FPS。
observation.images.robot0_agentview_left: 视频数据，形状 (256, 256, 3)，H.264编码，YUV420p像素格式，20 FPS。
observation.images.robot0_agentview_right: 视频数据，形状 (256, 256, 3)，H.264编码，YUV420p像素格式，20 FPS。

状态与动作

observation.state: 浮点数组，形状 (16,)，20 FPS。
action: 浮点数组，形状 (12,)，20 FPS。

标注信息

annotation.human.task_description: 整型数组，形状 (1,)，20 FPS。
annotation.human.task_name: 整型数组，形状 (1,)，20 FPS。

元数据与索引

next.reward: 浮点数组，形状 (1,)，20 FPS。
next.done: 布尔数组，形状 (1,)，20 FPS。
timestamp: 浮点数组，形状 (1,)，20 FPS。
frame_index: 整型数组，形状 (1,)，20 FPS。
episode_index: 整型数组，形状 (1,)，20 FPS。
index: 整型数组，形状 (1,)，20 FPS。
task_index: 整型数组，形状 (1,)，20 FPS。

技术细节

代码库版本: v3.0
机器人类型: PandaOmron
所有视频特征均无音频。

引用信息

主页: 未提供
论文: 未提供
BibTeX引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作学习领域，robocasa_target_KettleBoiling数据集依托LeRobot平台构建，专注于模拟烧水壶操作任务。该数据集通过PandaOmron机器人平台采集，记录了501个完整操作片段，总计超过22万帧数据，以20帧每秒的速率捕获。数据以分块Parquet格式存储，每块包含1000帧，确保了高效的数据管理与访问。采集过程同步录制了机器人手眼视角及左右代理视角的三通道彩色视频，分辨率统一为256x256，并辅以机器人状态、动作指令及任务标注等多模态信息，形成了时序对齐的密集轨迹记录。

特点

该数据集的核心特点在于其多视角视觉观测与丰富状态动作对的紧密结合。它提供了机器人手眼相机与左右两个外部视角的高帧率视频流，全面覆盖操作场景的空间信息。数据维度设计精细，观测状态包含16维浮点数，动作空间为12维，同时标注了任务描述、奖励信号及终止标志，支持端到端策略学习与模仿学习研究。所有特征均以20Hz频率同步，保证了时序一致性，且视频采用h264编码压缩，在保证质量的同时控制了存储开销，整体数据结构清晰，便于直接用于训练机器人控制模型。

使用方法

研究人员可利用该数据集进行机器人技能学习算法的开发与验证。数据集已预分割为训练集，涵盖全部501个片段，用户可通过LeRobot库或直接加载Parquet文件来访问数据。典型使用流程包括读取视频帧序列与对应的状态动作对，构建时间步对齐的样本，用于训练视觉运动策略或行为克隆模型。由于数据包含密集奖励与完成信号，它也适用于强化学习中的离线训练或预训练任务。在处理时，需注意按照提供的路径模式加载分块数据，并利用帧索引和片段索引来重组轨迹，以实现高效的数据流水线。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、大规模的真实世界交互数据作为支撑。robocasa_target_KettleBoiling数据集应运而生，它由LeRobot项目团队创建，专注于家庭环境中的具身智能任务。该数据集围绕“烧水壶沸腾”这一具体家务操作，利用PandaOmron机器人采集了501条轨迹，包含超过22万帧的多视角视觉观测、机器人状态及动作序列。其核心研究问题在于如何让机器人通过观察人类演示，学习并泛化复杂的操作技能，从而推动家庭服务机器人在非结构化环境中的自主能力提升。

当前挑战

该数据集旨在解决机器人操作技能学习中的领域挑战，即如何让机器人在动态、非结构化的家庭环境中，安全且可靠地完成需要多步骤精细协调的长时程任务。烧水壶沸腾涉及物体抓取、姿态调整、力控交互以及对沸腾状态的感知，对算法的鲁棒性与泛化能力提出了极高要求。在构建过程中，挑战同样显著：真实物理交互的数据采集成本高昂，需确保设备同步与数据一致性；多模态数据（如多路高清视频与状态动作序列）的精确对齐与高效存储是技术难点；此外，标注复杂操作意图并保证演示质量，以生成可用于监督学习或离线强化学习的可靠轨迹，亦是一项艰巨工作。

常用场景

经典使用场景

在机器人操作学习领域，robocasa_target_KettleBoiling数据集专注于模拟家庭环境中烧水壶的操控任务。该数据集通过PandaOmron机器人采集了501个任务片段，包含多视角视觉观测与状态动作序列，为模仿学习与强化学习算法提供了丰富的训练资源。其经典使用场景在于训练机器人执行精细的物体操作，例如抓取水壶、放置于加热设备并完成烧水过程，这要求算法能够理解复杂的空间关系与动态交互。

衍生相关工作

基于该数据集衍生的经典工作主要集中在机器人模仿学习与视觉运动策略的优化。例如，研究者利用其多视角视频数据开发了注意力机制模型，以提升机器人在遮挡环境下的操作性能。同时，该数据集也促进了跨任务迁移学习的研究，使得在烧水任务上训练的模型能够泛化至其他厨房操作，如倒水或清洗器具。

数据集最近研究