ember-lab-berkeley/robocasa365-target-atomic
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/ember-lab-berkeley/robocasa365-target-atomic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Target (Human) — atomic-seen,包含人类遥控操作的18个原子任务的演示数据(每个任务500次演示),在10个目标厨房中记录。这些任务也在预训练数据集中有所体现。数据集是RoboCasa365集合的一部分,采用LeRobot v3.0镜像格式,可直接加载。数据集包含9,126个片段,2,231,347帧(20 fps,约31小时),231个任务(自然语言表述,基于18个RoboCasa任务类别)。数据采集使用了3个256×256分辨率的摄像头,机器人设备为PandaOmron(7自由度手臂+Omron移动底座+躯干升降)。
The dataset is named Target (Human) — atomic-seen, containing human teleoperation data for 18 atomic tasks (500 demos/task) recorded in 10 held-out target kitchens. All tasks are also represented in the pretraining datasets. It is part of the RoboCasa365 collection, using a flat LeRobot v3.0 mirror format for drop-in loadability. The dataset includes 9,126 episodes, 2,231,347 frames (20 fps → 31 h), and 231 tasks (natural-language phrasings; underlying RoboCasa task classes: 18). Data was captured using 3 × 256×256 resolution cameras, with a PandaOmron robot (Panda 7-DoF arm + Omron mobile base + torso lift).
提供机构:
ember-lab-berkeley
搜集汇总
数据集介绍

构建方式
该数据集是RoboCasa365集合的核心组成部分,专注于人类遥操作数据的采集。构建过程涉及18个原子级操作任务,每个任务包含500条演示轨迹,共计9,126个回合,数据源自10个严格筛选的未见目标厨房环境。这些原子任务均已在预训练数据集中有所体现,确保了任务空间的覆盖与迁移学习的可行性。数据以LeRobot v3.0标准格式存储,采用扁平化结构,便于直接加载与使用。
特点
数据集涵盖231种自然语言表述的操作指令,对应于18个底层任务类别,体现了丰富的语义多样性。每个回合包含约20帧/秒的高频视觉观测与状态记录,总计超过200万帧,等效于31小时的操作时长。视觉模态由三台256×256分辨率的h264编码摄像机提供,包括左、右视角及腕部视角。机器人状态与动作空间分别由16维与12维连续变量表征,并辅以基于混合基座控制模式的切换机制。
使用方法
数据加载可通过LeRobot库的LeRobotDataset接口便捷实现,仅需指定数据集标识符即可完成实例化。数据集遵循统一的特征模式,适用于机器人学习中的模仿学习、行为克隆及多任务泛化研究。动作空间包含基座运动与机械臂操作的混合模式,控制模式由符号变量指示,便于研究者根据任务需求选择合适的数据子集。所有数据均以MIT许可证发布,可在学术与工业应用中自由使用。
背景与挑战
背景概述
随着机器人操作任务日益复杂,大规模、多样化的示范数据成为推动具身智能体泛化能力的关键。RoboCasa365 数据集由加州大学伯克利分校 Ember Lab 于 2025 年创建,旨在通过大量真实厨房场景下的遥操作数据,解决机器人在非结构化家庭环境中执行精细操作的核心研究问题。其中“target-atomic”子集专注于18种原子任务,每个任务包含约500条人类遥操作示范,涵盖了基础操作原语。该数据集依托 Sim2Real 思想,结合了模拟环境的可扩展性与真实世界的复杂性,为机器人学习领域提供了标准化的基准,其影响力体现在推动 multi-task 模仿学习、任务泛化等前沿方向的评估与进展。
当前挑战
该数据集面临的核心挑战包括:领域问题层面,机器人需要从高维观测(多视角图像、本体感知状态)中学习鲁棒策略,以应对厨房场景中对象布局、光照、纹理的多样性,同时处理混合了移动基座和机械臂的复合动作空间(含控制模式切换),这对模仿学习的动作表征与策略泛化构成显著难题。构建过程中,数据采集需在10个未见厨房中完成,以测试模型的跨场景泛化能力,但确保遥操作数据的一致性(如相机标定、动作指令规范)以及避免人机交互时长带来的疲劳效应,均增加了质量控制与系统校准的难度;此外,针对18种原子任务生成大量自然语言变体描述(231种表述),需要精细的任务解析与均衡采样,以支持语言条件的行为克隆训练。
常用场景
经典使用场景
在机器人学习与具身智能研究领域,数据集是推动算法迭代与模型泛化的基石。RoboCasa365-target-atomic 专注于人机交互中的原子任务(atomic tasks),提供了从10个全新厨房环境中采集的18类基础操作的遥操作数据,每类任务均包含500个示范。该数据集最经典的使用场景是作为模仿学习(Imitation Learning)与行为克隆(Behavioral Cloning)算法的训练与基准测试平台。通过在高保真仿真厨房中记录机械臂、移动底座与夹爪的协同操作序列,研究者能够训练模型完成诸如抓取、放置、开关抽屉等细粒度家务动作。由于任务被拆解为原子单元,该数据集特别适合评估算法在结构化、限定动作空间下的策略学习能力,并为后续多任务泛化研究提供了标准化起点。
解决学术问题
在机器人学习研究中,数据稀缺与任务泛化能力不足是长期阻碍实用化发展的核心瓶颈。RoboCasa365-target-atomic 的出现有力缓解了这两方面挑战。首先,数据集为高维感知与控制空间下的少样本学习问题提供了高质量解决方案——通过提供每类任务500个精确标注的遥操作示范,研究者可以在小样本场景中验证算法对有限数据的高效利用能力。其次,该数据集解决了跨任务知识迁移的基准缺失问题:18类原子任务共享统一的状态与动作空间,使模型能够在模块化策略(如分层强化学习、技能组合)的构建中评估其零样本迁移表现。更重要的是,数据集将机器人的移动与操作模态统一建模,推动了混合控制策略(Hybrid Control)的理论研究,为复杂任务分解与组合提供了实证支持。
衍生相关工作
作为 RoboCasa365 系列的核心组件,该数据集催生了多项具有里程碑意义的衍生研究。在方法论层面,研究者基于其原子任务结构提出了模块化技能库学习框架,将18类基础操作编码为可重组的技能原语,进而实现复杂任务的零样本组合(ICLR 2026 收录)。同时,数据集标准化的混合控制动作空间(Hybrid Mobile Base Control)启发了大量关于移动-操作协同策略优化的工作,推动了端到端强化学习在具身智能中的实际应用。此外,该数据集的高保真相机视角与多模态特征设计,为视觉-语言-动作联合模型(如基于Transformer的机器人策略)提供了关键训练资源,相关预训练与微调范式已在多个后续工作中被采纳。最后,其开源的MIT许可协议与LeRobot格式的便捷加载接口,使得该数据集成为机器人社区中数据共享与基准评测的事实标准之一,加速了跨机构研究成果的复现与比较。
以上内容由遇见数据集搜集并总结生成



