ember-lab-berkeley/robocasa365-pretrain-atomic

Name: ember-lab-berkeley/robocasa365-pretrain-atomic
Creator: ember-lab-berkeley
Published: 2026-05-09 02:48:31
License: 暂无描述

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ember-lab-berkeley/robocasa365-pretrain-atomic

下载链接

链接失效反馈

官方服务：

资源简介：

Pretraining (Human) — atomic数据集是RoboCasa365集合的一部分，包含65个原子级单技能任务的人类遥操作数据，每个任务约有100个演示。数据集提供了617个自然语言表述的任务，对应65个RoboCasa任务类别。数据集包含7,356个片段，1,495,313帧图像（20 fps，约21小时），使用3个256×256分辨率的h264视频摄像头（robot0_agentview_left / _right / _eye_in_hand）。机器人设备为PandaOmron（Panda 7-DoF机械臂 + Omron移动底座 + 躯干升降装置）。数据集的特征架构包括观察状态（observation.state）、动作（action）和观察图像（observation.images）。

Pretraining (Human) — atomic dataset is part of the RoboCasa365 collection, containing human teleoperation data for 65 atomic single-skill tasks (~100 demos/task). The dataset provides 617 natural-language phrasings of tasks, corresponding to 65 underlying RoboCasa task classes. It includes 7,356 episodes, 1,495,313 frames (20 fps → 21 h), and uses 3 × 256×256 h264 video cameras (robot0_agentview_left / _right / _eye_in_hand). The robot used is PandaOmron (Panda 7-DoF arm + Omron mobile base + torso lift). The feature schema includes observation.state, action, and observation.images.

提供机构：

ember-lab-berkeley

搜集汇总

数据集介绍

构建方式

在机器人学习领域中，大规模、多样化的人类演示数据集对于训练泛化能力强的策略至关重要。RoboCasa365-pretrain-atomic数据集正是为此而生，它源自RoboCasa365项目，专注于65种原子级别的单技能任务，每种任务均采集了约100条人类遥操作演示。数据通过PandaOmron机器人平台（配备Panda 7自由度机械臂、Omron移动基座及躯干升降机构）进行采集，最终汇聚成7,356个片段，共计1,495,313帧图像，对应约21小时的连续操作数据。任务描述以自然语言形式呈现，涵盖617种不同表述，底层对应65个核心任务类别，为细粒度技能学习提供了坚实基础。

使用方法

数据集的使用极为便捷，依托LeRobot生态，用户仅需通过简单的Python代码即可加载数据集。推荐在`lerobot.datasets.lerobot_dataset`模块中使用`LeRobotDataset`类，指定仓库名称即可获取完整的演示数据。加载后，可直接访问`observation.state`、`observation.images`及`action`等字段，用于训练模仿学习或强化学习模型。由于数据集遵循统一的特征模式，与其他RoboCasa365子集无缝兼容，可方便地进行跨任务迁移或联合训练，加速机器人技能习得的研究进程。

背景与挑战

背景概述

在机器人学习领域，大规模、多样化的操作数据是推动通用技能习得的关键。RoboCasa365-pretrain-atomic数据集由伯克利EMBER实验室于2024年创建，聚焦于65种原子级单技能任务（如抓取、放置等），通过人类遥操作采集，每个任务约100个演示，总计7356个 episode、21小时视频数据。该数据集作为RoboCasa365 482小时预训练人类数据的一部分，旨在为机器人策略学习提供细粒度、结构化的基础技能训练资源。其影响力在于弥补了现有数据集在原子任务覆盖度和数据粒度上的不足，为多任务学习与迁移学习范式的验证提供了标准化基准，相关成果已发表于ICLR 2026。

当前挑战

该数据集所解决的领域问题核心在于机器人操作任务的分解与泛化：传统数据集多关注复杂长程任务，难以支持技能的可迁移学习，而原子任务集通过解耦单一行为模式，使模型能更高效地学习基础运动基元。构建过程中面临的挑战包括：确保65种技能的动作空间一致性（如混合移动基座与机械臂的协同控制）、高保真多视角数据同步（3个256×256摄像头）以及自然语言任务描述的多样性（617种短语）与底层任务类的精确映射。此外，数据规模（21小时）相较于真实世界操作的无穷变异性仍显有限，跨场景泛化能力需进一步验证。

常用场景

经典使用场景

在机器人学习领域，数据集的构建质量直接决定了策略的泛化能力与鲁棒性。robocasa365-pretrain-atomic 收录了65种原子级单技能任务的7256段人类遥操作演示，涵盖基础操作如抓取、放置、推拉等核心动作基元，并提供多维度的状态与动作标注。其最经典的使用场景是作为机器人模仿学习的预训练数据源，研究者可基于此训练策略网络，使机器人快速掌握操作技能的基本模式。该数据集以20帧每秒的高频采样率存储了超过149万帧图像，配合三视角摄像头（双侧观察与手眼视角）的视觉输入，为构建端到端或分层的动作生成模型提供了标准化的数据基础。借助 LeRobot v3.0 框架的整合特性，用户能够便捷地加载并适配至各类模仿学习算法，加速机器人技能获取的研究进程。

解决学术问题

该数据集核心解决了机器人技能学习中数据稀缺与任务单一化的学术瓶颈。传统的机器人数据集往往规模有限或任务类型单一，难以支撑对大规模多任务泛化问题的系统研究。robocasa365-pretrain-atomic 通过提供65种原子技能的高质量演示数据，使研究者能够深入探索多任务模仿学习的迁移机制，例如不同技能间的共性动作表示如何被有效提取，以及预训练策略在新任务上的零样本适应性。此外，该数据集对混合控制模式的精细标注，包括基座运动与机械臂操作的协同切换，为研究移动操作机器人的控制策略提供了珍贵的实验素材。其发布推动了机器人学习领域从单任务过拟合向多任务泛化的范式转变，为衡量算法在复杂环境下的知识复用能力设立了新的基准。

实际应用

在实际应用中，robocasa365-pretrain-atomic 为服务型机器人和家庭辅助机器人的技能训练提供了可工程化部署的解决方案。结合大规模预训练后的策略网络，机器人能够在厨房、卧室等家居环境中自主完成诸如取物、整理、开抽屉等日常操作，显著降低对人类遥控干预的依赖。企业与研究机构可利用该数据集对机器人进行初步的技能预训练，再通过少量特定场景的微调数据完成个性化适配，大幅缩短部署周期。数据集中包含的移动基座与机械臂的混合控制信号，尤其适用于需要灵活导航与精细操作结合的商用清洁机器人或仓储物流机器人。由此衍生的技术路径正在推动机器人行业从预编程范式向数据驱动范式的转型，为人机协作的实用性演进提供了可复现的数据基石。

数据集最近研究