ember-lab-berkeley/robocasa365-pretrain-composite

Name: ember-lab-berkeley/robocasa365-pretrain-composite
Creator: ember-lab-berkeley
Published: 2026-05-08 18:51:25
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ember-lab-berkeley/robocasa365-pretrain-composite

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是RoboCasa365的482小时预训练人类数据集的长时部分，包含235个复合（多步骤）任务的人类远程操作数据（每个任务约100个演示）。数据集包括24,687个episodes，27,610,913帧（20 fps，相当于383小时），4,428个任务（自然语言表述，底层RoboCasa任务类别为235个）。摄像机配置为3个256×256 h264视频（robot0_agentview_left / _right / _eye_in_hand），机器人配置为PandaOmron（Panda 7-DoF臂 + Omron移动底座 + 躯干升降）。数据集的特征模式包括观察状态（float64[16]）、动作（float64[12]）和观察图像（video, 256×256×3）。数据集采用MIT许可证，引用自RoboCasa365论文（ICLR 2026）。

This dataset is the long-horizon half of RoboCasa365s 482-hour pretraining-human dataset, containing human teleoperation data for 235 composite (multi-step) tasks (~100 demos/task). It includes 24,687 episodes, 27,610,913 frames (20 fps → 383 h), and 4,428 tasks (natural-language phrasings; underlying RoboCasa task classes: 235). The camera setup consists of 3 × 256×256 h264 videos (`robot0_agentview_left` / `_right` / `_eye_in_hand`), and the robot is a PandaOmron (Panda 7-DoF arm + Omron mobile base + torso lift). The feature schema includes observation state (float64[16]), action (float64[12]), and observation images (video, 256×256×3). The dataset is licensed under MIT, inherited from upstream RoboCasa365, and cited in the RoboCasa365 paper (ICLR 2026).

提供机构：

ember-lab-berkeley

搜集汇总

数据集介绍

构建方式

RoboCasa365-pretrain-composite数据集源于人类遥操作数据采集，涵盖了235类复合（多步骤）任务，每类任务包含约100条演示。该数据集作为RoboCasa365预训练人类数据集中长时域任务的一半，总计包含约482小时的操作记录。数据采集采用PandaOmron机器人平台，包括Panda七自由度机械臂、Omron移动底座及躯干升降机构，通过三台256×256分辨率的h264视频相机（左侧、右侧及手眼视角）同步记录操作过程。数据以LeRobot v3.0格式存储，提供标准布局，支持即插即用加载。

特点

该数据集共包含24,687条操作片段，累计27,610,913帧画面（约383小时），任务描述涵盖4,428种自然语言表述方式，底层对应235类RoboCasa任务类别。数据特征包括16维观测状态（含底座位置、四元数、末端执行器相对位姿及夹爪关节位置）和12维动作空间（含底座运动、控制模式、末端执行器增量位移及夹爪控制）。其中控制模式采用特殊约定：-1表示机械臂主动控制，+1表示底座驱动，为混合移动基座控制策略提供了明确的模式切换依据。

使用方法

用户可通过LeRobot框架直接加载该数据集，调用方式简洁：从lerobot.datasets.lerobot_dataset导入LeRobotDataset类，实例化时指定数据集名称ember-lab-berkeley/robocasa365-pretrain-composite即可。加载后的数据集遵循统一的特征模式，包含观测图像（三视角视频）、状态向量和动作向量，适用于机器人模仿学习、多任务策略训练等场景。数据集的MIT开源许可协议允许自由使用与分发，其引用信息可参考RoboCasa365论文（ICLR 2026）。

背景与挑战

背景概述

在机器人学习领域，大规模、多样化的操作数据集对于训练具备泛化能力的策略至关重要。RoboCasa365-pretrain-composite数据集于2025年由加州大学伯克利分校的Ember Lab主导创建，旨在解决机器人长时序任务（long-horizon tasks）中数据稀缺的问题。该数据集隶属于RoboCasa365集合，专注于235种复合型（multi-step）任务，每种任务配备约100条人类遥操作示范，总计涵盖24,687条轨迹和超过27,610,913帧图像，时长累积达383小时。通过精细化采集机器人在复杂环境中的多视角视觉与状态信息，该数据集为机器人操作策略的预训练提供了坚实基础，并在ICLR 2026上被正式发表，极大地推动了下游任务中策略迁移与泛化能力的研究。

当前挑战

该数据集所应对的核心挑战在于机器人长时序操作中的策略合成难题，即如何将多个简单技能高效组合以完成复杂的复合任务。传统单步数据集难以支撑此类学习，而RoboCasa365通过提供风格多样、序列连贯的示范数据，弥合了这能力鸿沟。构建过程中，数据采集面临显著困难：需要平衡任务覆盖广度与每个任务的示范数量，同时确保不同任务间动作特征的自然过渡，避免产生不一致的迁移偏差。此外，机器人平台（PandaOmron）包含移动基座与机械臂的混合控制，状态与动作空间维度复杂，加之多摄像头同步录制与大规模数据存储管理的挑战，均对数据质量与可用性提出了严格要求。

常用场景

经典使用场景

在机器人学习领域，复合任务（composite task）的泛化能力一直是研究的核心瓶颈。RoboCasa365-Pretrain-Composite 数据集专为攻克这一难题而设计，收录了涵盖235种复合任务（如“从冰箱取出食材并放入微波炉”）的约100个人类遥操作演示，合计近2.5万个片段，总时长超过380小时。其最经典的使用场景是作为大规模多任务模仿学习的训练集，研究者可利用三视角高清视频与16维状态、12维动作空间，训练机器人理解复杂任务中子步骤的时序衔接与空间推理，从而在仿真环境中复现类似人类的操作序列。

实际应用

在现实应用层面，该数据集最直接的落地点是服务型机器人领域。例如，家庭清洁机器人可复用其多步骤任务原语（如“拿抹布→擦桌子→归位抹布”），通过微调快速适配新场景；仓储物流场景中，拣选机器人能学习“移动至货架→抓取商品→放回运输车”的序列决策。此外，由于数据采集采用标准的LeRobot格式且兼容性强，工业界可将其作为预训练模型的基础，结合少量领域特定数据即可完成部署，有效降低对新任务从头训练的时间与成本。

衍生相关工作

作为RoboCasa365系列的核心组件，该数据集已催生多项前沿工作。其上游论文《RoboCasa365》（ICLR 2026）提出了大规模家务模拟数据生成流水线，而复合任务部分直接支撑了下游的“任务分解与重组”研究，例如通过其天然的多步骤标签探索子目标提取算法。此外，数据集中独特的混合基底控制机制（HybridMobileBase）为后续工作如《Compositional Imitation via Skill Segmentation》提供了标准化接口，助推了层次化策略学习从仿真到真实机器人的零样本迁移尝试。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集