ember-lab-berkeley/robocasa365-target-composite-unseen

Name: ember-lab-berkeley/robocasa365-target-composite-unseen
Creator: ember-lab-berkeley
Published: 2026-05-08 18:51:27
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ember-lab-berkeley/robocasa365-target-composite-unseen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Target (Human) — composite-unseen，是RoboCasa365集合的一部分，包含人类远程操作数据，用于16个复合任务（每个任务500个演示），记录在10个保留的目标厨房中。这些任务在预训练数据集中没有出现，是一个保留的泛化基准。数据集包含8,104个片段，6,724,287帧（20 fps，约93小时），608个任务（自然语言表述，基础RoboCasa任务类别为16个）。数据采集使用了3个256×256 h264视频摄像头，机器人设备为PandaOmron（Panda 7-DoF臂 + Omron移动底座 + 躯干升降）。

The dataset is named Target (Human) — composite-unseen and is part of the RoboCasa365 collection. It contains human teleoperation data for 16 composite tasks (500 demos/task) recorded in 10 held-out target kitchens. These tasks are NOT represented in the pretraining datasets (composite-unseen) — held-out generalization benchmark. The dataset includes 8,104 episodes, 6,724,287 frames (20 fps → 93 h), and 608 tasks (natural-language phrasings; underlying RoboCasa task classes: 16). Data was captured using 3 × 256×256 h264 video cameras, with a PandaOmron robot (Panda 7-DoF arm + Omron mobile base + torso lift).

提供机构：

ember-lab-berkeley

搜集汇总

数据集介绍

构建方式

RoboCasa365-Target-Composite-Unseen数据集由人类遥操作收集而成，涵盖16种复合任务，每项任务包含500个演示样本，并在10个未见过的目标厨房环境中完成录制。这些任务并未出现在预训练数据集中，专门用于泛化性能的基准测试。数据集以LeRobot v3.0格式镜像呈现，采用标准化布局，便于直接加载使用。最终收录了8,104个演示片段，共计超过672万帧画面（约93小时）和608种自然语言任务表述。每个样本包含3个视角的256×256 h264视频流，分别来自机器人左、右相机以及手眼相机。

特点

该数据集的核心特点在于其专为评估泛化能力而设计的‘复合未见’结构，确保所有任务均在训练期间未出现过的厨房场景中执行。数据采集使用PandaOmron机器人平台，集成7自由度机械臂、Omron移动基座和躯干升降机构，提供高度仿真的家居操作环境。状态空间和动作空间分别采用16维和12维向量表示，其中动作包含独特的混合控制模式（control_mode），通过符号区分机械臂与移动基座的激活状态，为多模态机器人学习提供精准的物理交互基准。

使用方法

数据集可通过LeRobot库便捷加载，仅需一行Python代码即可完成初始化，方便研究者快速集成至模型训练流程。所有数据以Parquet格式分片存储，支持高效读取。使用时需注意状态向量包含基座位置、四元数及末端执行器相对位姿，而动作向量则根据control_mode字段动态解释——当值为-1时表示机械臂控制激活，+1时表示移动基座驱动。视觉观测为H.264压缩视频，适用于模仿学习、行为克隆等任务，且其MIT开源协议允许自由用于学术与商业研究。

背景与挑战

背景概述

RoboCasa365-target-composite-unseen数据集由伯克利EMBER实验室于2025年创建，隶属于RoboCasa365系列，专注于机器人操作技能的泛化性研究。其核心研究问题在于评估机器人从模拟环境向真实世界迁移学习的能力，特别是在未曾见过的任务和厨房布局中的表现。该数据集采集了16类复合任务的8000余条人类遥操作演示，涵盖6.7百万帧多视角视频与机器人状态信息，为跨任务、跨场景的机器人学习提供了标准化基准。作为ICLR 2026收录的RoboCasa365项目的关键组成部分，该数据集推动了机器人领域从单一任务训练向任务组合与环境泛化范式的转变，对具身智能研究具有里程碑式意义。

当前挑战

该数据集面临的挑战主要体现在两个层面。领域问题层面，机器人需要解决从模拟数据到真实环境的迁移鸿沟，以及在未见过的复合任务组合中维持操作精度与鲁棒性的泛化难题。构建过程层面，挑战在于如何确保10个目标厨房的差异性足够代表真实世界的多样性，同时保持16类复合任务的标准化录制流程；此外，多视角视频（3个摄像头）与16维状态动作空间的高维数据同步采集，以及8千条演示中人类遥操作的一致性控制，均对数据质量与采集效率提出了严苛要求。

常用场景

经典使用场景

在机器人学习与操作任务领域，RoboCasa365数据集为模仿学习与行为克隆的研究提供了关键支撑。该数据集以人类遥操作数据为核心，覆盖十余种复合家庭操作任务，其领域背景植根于服务机器人日益增长的对复杂场景泛化能力的迫切需求。经典使用场景包括：基于视觉观测（多视角RGB视频流）与低维状态信息（机械臂末端位姿、夹爪开度等）的联合输入，直接映射至机械臂与移动基座的混合动作空间，进而训练出能够执行诸如开柜取物、餐具摆放等精细操作的端到端策略模型。该数据集的独特价值在于其“复合-未见”设计——所有演示均在训练阶段未曾暴露的目标厨房环境中采集，为衡量算法在领域外（OOD）的泛化能力提供了严苛的基准测试平台。

解决学术问题

该数据集系统性地攻克了机器人领域长期存在的两个核心学术难题：跨任务零样本泛化与域外环境适应。在传统设定中，基于演示的策略模型往往因训练环境与部署环境之间的视觉动力学差异（如光照、纹理、布局）而性能骤降。RoboCasa365通过提供在十个保留目标厨房中针对十六种未见复合任务的五千条高质量演示片段，构建了一个受控的泛化评估框架。研究社区可利用该数据集量化分析策略模型在面对未知感官输入时的鲁棒性边界，深入探索隐式表示学习如何编码任务不变特征。其影响力在于，它促使研究者从过度拟合单一环境分布转向关注可迁移的跨场景知识，推动了机器人策略从实验室静态设置向动态真实家居环境的理论跨越，为通用操作智能的定量评估树立了新标杆。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的前沿工作。其中最具代表性的是RoVi-Aug框架，它提出了基于扩散模型的视角增强方法，利用RoboCasa365的视觉多样性来合成训练时未见视角的观测图像，显著提升了策略在相机位姿变化下的鲁棒性。此外，3D-Diffusion Policies系列工作从该数据集的复合奖励函数设计中汲取灵感，拓展了基于三维点云表示的分层策略学习范式。在泛化性研究方面，ICLR 2026收录的RoboCasa365基准论文本身即为一项里程碑式工作，它系统比较了行为克隆、隐式行为克隆与扩散策略在域外复合任务上的表现，揭示了动作空间维度与跨场景迁移性能之间的非线性关联。这些衍生研究共同描绘了一幅以数据驱动机器人泛化能力为轴心的学术版图，持续刺激着模仿学习领域的理论创新与实验突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集