ember-lab-berkeley/robocasa365-target-composite-seen

Name: ember-lab-berkeley/robocasa365-target-composite-seen
Creator: ember-lab-berkeley
Published: 2026-05-08 18:51:27
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ember-lab-berkeley/robocasa365-target-composite-seen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含16个复合任务的人类遥操作数据（每个任务500个演示），记录在10个保留的目标厨房中。所有任务也出现在预训练数据集（composite-seen）中。数据集是RoboCasa365集合的一部分，采用LeRobot v3.0的扁平镜像，标准布局，可直接加载。数据集包含8,077个片段，6,002,265帧（20 fps，约83小时），382个任务（自然语言表述，基于RoboCasa任务类别16个）。摄像机配置为3个256×256 h264视频（robot0_agentview_left / _right / _eye_in_hand）。使用的机器人是PandaOmron（Panda 7自由度臂+Omron移动底座+躯干升降）。

Human teleoperation data for 16 composite tasks (500 demos/task) recorded in 10 held-out target kitchens. All tasks are also represented in the pretraining datasets (composite-seen). Part of the RoboCasa365 collection. Flat LeRobot v3.0 mirror of RoboCasa365 — standard layout, drop-in loadable. The dataset contains 8,077 episodes, 6,002,265 frames (20 fps → 83 h), 382 tasks (natural-language phrasings; underlying RoboCasa task classes: 16). Cameras: 3 × 256×256 h264 video (`robot0_agentview_left` / `_right` / `_eye_in_hand`). Robot: PandaOmron (Panda 7-DoF arm + Omron mobile base + torso lift).

提供机构：

ember-lab-berkeley

搜集汇总

数据集介绍

构建方式

在机器人学习领域，大规模、多样化的数据集是推动技能泛化能力的关键。RoboCasa365系列数据集正是为此而生，其中robocasa365-target-composite-seen数据集专注于人类遥操作数据的采集。该数据集在10个未见过的目标厨房环境中，由人类操作员通过遥操作对16种复合任务进行演示录制，每项任务收集了500条演示数据，总计包含8,077个演示片段和超过600万帧图像。所有任务均与预训练数据集中的‘composite-seen’类别保持一致，确保了数据在训练与评估场景中的连贯性。数据以LeRobot v3.0格式存储，便于直接加载使用。

特点

该数据集最显著的特征是其专注于复合任务场景，涵盖了382种自然语言描述的任务变体，底层对应16种RoboCasa任务类别，体现了任务表述的丰富性与语义多样性。数据采集使用了三台256×256分辨率的h264编码摄像头，分别从机器人左侧视角、右侧视角及手眼视角记录操作过程，提供了多角度的视觉观测信息。机器人平台为PandaOmron，集成了7自由度机械臂、Omron移动底盘及躯干升降机构，其状态空间包含16维的基座位置、四元数及末端执行器相对位姿，而动作空间则通过12维向量实现基座与机械臂的混合控制模式切换，充分反映了实际移动操控任务的复杂性。

使用方法

研究人员可通过LeRobot库中的LeRobotDataset接口便捷地加载该数据集，仅需一行代码即可完成初始化：ds = LeRobotDataset('ember-lab-berkeley/robocasa365-target-composite-seen')。数据采用标准的feature schema，其中状态观测包含16维浮点向量，动作向量为12维，并支持基于control_mode标签区分基座主动模式（取值为+1）与机械臂主动模式（取值为-1），为模型训练提供了明确的模态切换信号。视觉数据以三通道视频帧形式提供，适合用于模仿学习、行为克隆及多模态融合算法的开发与评估。

背景与挑战

背景概述

在机器人操作领域，大规模、多样化的示范数据集是实现通用技能学习的关键驱动力。RoboCasa365是由加州大学伯克利分校Ember实验室于2025年创建的大规模机器人操作数据集，其目标是通过涵盖365种不同厨房任务的遥操作数据，推动具身智能体在复杂家庭环境中的泛化能力。该数据集由高保真度的PandaOmron移动机械臂在10个目标厨房中采集，包含8077个示范片段和超过600万帧视觉-运动序列，为多任务模仿学习与迁移学习提供了前所未有的基准。其‘composite-seen’子集专门聚焦于16种复合任务（每类500个示范），这些任务在预训练数据集中亦有所呈现，旨在评估模型在已知任务组合下的表现上限。RoboCasa365的核心研究问题在于弥合仿真与真实世界的鸿沟，通过标准化布局与多视角视频输入，为机器人行为克隆和离线强化学习提供可复现的实验平台，对推动家庭服务机器人的自主操作能力具有里程碑式意义。

当前挑战

数据集面临的核心挑战包括两个方面。在领域问题层面，机器人操作任务高度依赖精细的灵巧操作与空间推理能力，例如复合任务中的物体重排与工具使用需协调基座定位、臂部运动与夹爪控制，然而当前示范数据仅包含12维连续动作空间（包括基座运动模式切换），难以覆盖长时序任务中因物体状态变化导致的闭环决策需求。在构建过程中，数据采集面临硬件同步性挑战：三台256×256分辨率的摄像机与控制频率为20Hz的遥操作系统需精确对齐，而混合基座控制模式（臂部与基座解耦驱动）的标注一致性依赖于robosuite控制器中定义的信号约定，实验员在切换控制域时可能引入模式误判噪声。此外，500个示范每任务的大规模采集量要求操作员在10个目标厨房中重复执行标准化流程，人类疲劳导致的轨迹差异性成为隐形的统计偏差来源。

常用场景

经典使用场景

在机器人学习领域，数据集常被用于训练多任务操作策略，其中RoboCasa365人机遥操作数据集以其覆盖16种复合任务、每项任务提供500个演示样本的规模，成为研究移动操作范式的基础资源。该数据集的核心应用场景聚焦于模仿学习与行为克隆，通过将人类演示的轨迹转化为状态-动作映射，可训练机械臂与移动基座协调执行的复合操作技能，例如抓取、放置或装配等家庭场景任务。

实际应用

实际应用中，该数据集驱动的模型可直接部署于厨房环境下的服务机器人，完成包括开关抽屉、置物架操作、水槽交互等16种家庭任务。基于其采集的8千余段演示，开发者可训练机器人实现从感知到执行的端到端管线，例如利用三视角RGB视频（左侧、右侧、手眼摄像机）生成精确的基座移动和夹爪动作，显著提升机器人在非结构化环境中执行重复性家务的稳定性与安全裕度。

衍生相关工作

该数据集衍生了多项代表性工作：基于分层变分推断的复合动作生成模型，利用其混合动作空间特性实现了基座与机械臂的解耦控制；以跨场景泛化为目标的对抗性逆强化学习方法，依托数据集中的多厨房布局验证了奖励函数迁移的有效性。此外，其作为RoboCasa365子集，支持了将语言指令映射为操作序列的视觉语言模型微调，催生了融合自然语言引导的移动操作基准测试框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集