eval_molmoact_cup_stacking_ood

Name: eval_molmoact_cup_stacking_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:52
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_molmoact_cup_stacking_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器人控制的数据集，使用LeRobot工具创建，针对双机械臂系统（bi_yam_follower），旨在支持机器人学习任务。数据包含21个完整任务片段（episodes），总计20,688帧，涵盖3种不同任务。数据以Parquet格式存储，总数据文件大小约100MB，视频文件大小约200MB。具体字段包括：动作（action，14维浮点数组，控制左右机械臂各6个关节及夹爪位置）、状态观测（observation.state，14维浮点数组，反映关节和夹爪实时位置）、视觉观测（observation.images.left/right/top，三个视角的RGB视频流，分辨率360x640，帧率30fps，编码为AV1），以及时间戳、帧索引、片段索引、数据索引和任务索引等元数据。所有数据标记为训练集，适用于机器人模仿学习、强化学习、行为克隆和多模态感知-动作策略学习等研究场景。

This dataset is a robot control dataset created using the LeRobot tool, targeting a dual-arm robotic system (bi_yam_follower) and designed to support robot learning tasks. It contains 21 complete task episodes, totaling 20,688 frames, covering 3 different tasks. The data is stored in Parquet format, with a total data file size of approximately 100MB and video file size of about 200MB. Specific fields include: action (a 14-dimensional float array controlling the position of 6 joints per arm and the gripper), observation.state (a 14-dimensional float array reflecting real-time joint and gripper positions), observation.images.left/right/top (RGB video streams from three perspectives, with a resolution of 360x640, 30fps frame rate, encoded in AV1), as well as metadata such as timestamp, frame_index, episode_index, index, and task_index. All data is labeled as the train split, suitable for research scenarios including robot imitation learning, reinforcement learning, behavior cloning, and multimodal perception-action policy learning.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于评估机器人堆叠杯子任务的泛化性能。数据采集自一台双臂机器人（bi_yam_follower），通过遥操作记录21个完整回合的演示数据，涵盖3种不同的堆叠任务。每个回合以30帧/秒的速率采样，共捕获20,688帧，包含高精度的机器人关节状态（左/右各7维：6个关节位置与1个夹爪位置）以及14维动作指令。视觉信息由左、右、顶三个视角的摄像头同步录制，分辨率为640×360，编码为AV1格式的视频。数据以Parquet格式存储，按固定块大小（1000帧）分块组织，便于高效加载与流式处理。

特点

该数据集最大的特色在于其针对分布外泛化（Out-of-Distribution, OOD）场景的刻意设计，旨在评估模仿学习算法在未见过的杯子堆叠配置下的适应能力。数据集规模虽小（21个回合、约100MB数据与200MB视频），但包含了高保真的多模态信息：14维连续动作空间、14维本体感知状态以及三视角立体视觉流。所有时间戳与帧索引均被精确记录，支持时序建模。此外，任务标签（task_index）明确区分了不同堆叠类型，为评估算法在任务切换与组合泛化上的表现提供了基准。

使用方法

该数据集兼容LeRobot生态，可通过`lerobot`库直接加载。使用者首先需安装LeRobot（pip install lerobot），然后利用`lerobot.common.datasets.lerobot_dataset.LeRobotDataset`类指定数据集路径与配置名称（`default`）进行读取。数据集已预先划分为训练集（全部21个回合），但未提供验证/测试划分，用户可根据`episode_index`自行拆分。动作与状态数据均为连续浮点数，可直接用于训练基于状态或视觉的动作克隆、逆强化学习等模仿学习模型。三视角图像可通过`observation.images`键访问，支持实时视频解码与批处理。典型加载示例如下：`dataset = LeRobotDataset(repo_id='eval_molmoact_cup_stacking_ood')`。

背景与挑战

背景概述

在机器人学习领域，模仿学习通过从专家演示中学习策略以完成复杂操作任务，已成为核心范式之一。eval_molmoact_cup_stacking_ood数据集由Hugging Face团队基于LeRobot框架创建，专注于双机械臂协作场景下的杯子堆叠任务，旨在评估机器人策略在面对分布外（OOD）场景时的泛化能力。该数据集包含21个完整演示片段，总计20688帧，覆盖三种不同任务配置，并记录了14维关节控制动作与左右上三视角视觉观测。其核心研究问题是衡量学习到的策略在新任务变体、环境干扰或未见过物体配置下的鲁棒性，为推进机器人模仿学习向现实世界部署提供了关键评估基准。

当前挑战

该数据集所解决的领域问题在于，现有机器人模仿学习策略往往在训练场景内表现优异，但面对杯子堆叠任务中未曾出现的放置角度、物体物理属性或背景变化时性能骤降，即“分布偏移”挑战。构建过程中，挑战涵盖多维度：首先，采集双机械臂协同演示时需精准同步14个自由度的运动轨迹与多视角视频流，确保数据时空一致性；其次，设计分布外场景需系统性地引入变量（如陌生桌面纹理、光照条件、杯具尺寸差异），这对任务配置的合理性和覆盖度提出高要求；最后，在仅21个演示片段的小样本限制下，如何平衡数据采集成本与评估统计显著性成为关键瓶颈，考验数据集对真实机器人泛化性评估的代表性。

常用场景

经典使用场景

在机器人操作与模仿学习领域，eval_molmoact_cup_stacking_ood数据集为评估双机械臂在非分布环境下的泛化能力提供了绝佳平台。该数据集包含21个示范回合、超过两万帧的精细动作记录，涵盖了三项典型的堆叠任务。每段轨迹均来源于双机械臂（bi_yam_follower）的真实操作，并同步采集了左右手关节角度、夹爪状态以及三视角（左、右、顶部）的高清视频流。研究者借此能够系统性地测试模型在处理未见过的杯子形状、摆放位置或堆叠顺序时的鲁棒性，从而推动具身智能体从固定模板走向灵活适应。

解决学术问题

该数据集精准回应了机器人学习领域中一个核心难题——分布外泛化。传统示范数据集往往在固定环境下采集，导致模型在场景、物体或任务模式发生微妙变化时性能骤降。eval_molmoact_cup_stacking_ood通过刻意引入与训练分布不一致的测试条件，使学界能够量化算法对域偏移的敏感度。其意义在于，它打破了“训练即成功”的虚假安全感，迫使研究者关注策略的迁移韧性，为构建真正可部署于无约束真实世界的自主操作系统奠定了评估基石。

衍生相关工作

围绕该数据集已催生了一系列标志性研究工作。例如，研究者基于其多视角视觉特征设计出融合空间注意力的策略网络，显著提升了在对手未见杯子时的抓取成功率；另一经典工作则利用该数据集的关节空间表示，引入对比学习损失以增强状态表征对光照和纹理变化的抗干扰能力。此外，包含该数据集的LeRobot生态还推动了低成本机器人平台上的模型预训练与微调范式，使学术届能够在统一基准下横向对比各类行为克隆与强化学习方法的效果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集