eval_molmoact_cup_stacking_in-distribution

Name: eval_molmoact_cup_stacking_in-distribution
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:38
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_molmoact_cup_stacking_in-distribution

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，是一个机器人领域的数据集，采用Apache-2.0许可证。数据集包含35个episodes，总计32048帧，对应1个任务，数据以parquet文件格式组织，总数据文件大小约100MB，视频文件大小约200MB，帧率为30fps。数据集仅提供训练集（索引0-35）。数据特征包括：动作（action）和观测状态（observation.state）均为14维浮点数组，分别表示左右机械臂的6个关节位置和1个夹爪位置；观测图像包含三路视频（右、左、顶视角），每路视频分辨率为360x640，3通道，采用AV1编码，无音频；此外还包含时间戳、帧索引、episode索引、全局索引和任务索引等元数据字段。数据集适用于机器人控制、模仿学习或强化学习等任务，但具体任务定义和背景信息未在README中说明。

This dataset is created by the LeRobot project and is a dataset in the robotics domain, licensed under Apache-2.0. It contains 35 episodes, totaling 32048 frames, corresponding to 1 task. The data is organized in parquet file format, with a total data file size of approximately 100MB and a video file size of about 200MB, at a frame rate of 30fps. The dataset only provides a training set (indices 0-35). Data features include: action and observation.state, both being 14-dimensional floating-point arrays, representing the 6 joint positions and 1 gripper position for the left and right robotic arms; observation images consist of three video streams (right, left, and top views), each with a resolution of 360x640, 3 channels, encoded in AV1 without audio; additionally, metadata fields such as timestamp, frame index, episode index, global index, and task index are included. The dataset is suitable for tasks like robot control, imitation learning, or reinforcement learning, but specific task definitions and background information are not described in the README.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，聚焦于机器人领域的杯塔堆叠任务。数据采集自一款名为bi_yam_follower的双臂机器人，通过遥操作或预设策略收集了35个完整操作回合，共计32,048帧时序数据。每个回合记录了14维机器人关节动作指令与对应的观测状态，包括左右各六自由度关节位置及夹爪开合度。多视角视觉信息通过三个分辨率均为360×640的摄像头（左侧、右侧及俯视）以30帧/秒的速率同步采集，并编码为AV1格式的视频流。数据以Parquet格式分块存储，每块包含1,000帧样本，同时视频文件独立保存，整体数据与视频体积分别为100MB和200MB。训练集与全量数据一致，未划分验证或测试子集。

特点

该数据集的核心特色在于为双臂协作操作提供了高精度的闭环训练样本。动作与状态空间采用完全对称的14维连续值设计，覆盖双臂从关节角度到末端夹爪的完整动力学描述。多视角视觉输入（左、右、顶）赋予模型立体空间感知能力，尤其适合学习复杂的三维物体堆叠策略。数据采集频率稳定在30赫兹，时序分辨率能够捕捉高速动态操作中的细微调整。此外，任务类型单一但回合数充足，保证了数据内在分布的一致性，特别适用于在初始训练分布内评估模仿学习或强化学习算法的泛化边界与性能上限。

使用方法

数据集可通过LeRobot库直接加载，用户需在Python环境中安装lerobot包并指定数据集路径。调用lerobot.Dataset接口时，数据将自动按帧组织为可迭代样本，每个样本包含action、observation.state、observation.images（左右顶三视图）、timestamp及episode_index等字段。动作和状态为浮点型数组，图像数据以解码后的视频帧数组形式返回。研究人员可基于frame_index筛选特定时序片段，或利用episode_index索引完整回合进行序列建模。由于数据已预设为单一任务且无划分，建议在训练后手动留取部分回合作为验证集，以监控过拟合程度。模型输出维度应与动作空间一致（14维），输入视觉部分可灵活调整分辨率以适配不同架构。

背景与挑战

背景概述

该数据集名为eval_molmoact_cup_stacking_in-distribution，由Hugging Face社区基于LeRobot框架创建，专注于机器人操作领域的模仿学习研究。数据集诞生于2024年，核心研究问题在于通过多视角视觉和关节状态数据，使双臂机器人完成杯子堆叠任务。数据集包含35个演示片段、超过3.2万帧视频图像，采样频率为30帧/秒，通过顶部、左侧和右侧三个摄像头捕获环境信息，并结合14维关节动作与状态数据，为端到端机器人学习提供了标准化训练资源。该数据集在机器人感知与技能迁移领域具有重要影响，尤其适用于在分布内场景下评估模型对复杂操作任务的泛化能力。

当前挑战

该数据集主要应对机器人精细操作领域的模仿学习挑战，具体包括：1) 双臂协调问题：机器人需同时控制左右各6个关节及夹爪，在杯架有限空间内完成多步骤堆叠，要求动作序列精准且鲁棒。2) 多模态感知融合：需整合三个摄像头的视觉输入（分辨率360×640）与14维关节状态反馈，解决视角差异、遮挡及坐标对齐难题。3) 构建过程挑战：数据集仅含35个演示片段，样本量有限，且训练与测试未拆分（全部用于训练），可能导致模型过拟合或泛化不足，需依赖数据增强或仿真扩展来缓解数据稀缺性。

常用场景

经典使用场景

在机器人学习与灵巧操作领域，eval_molmoact_cup_stacking_in-distribution数据集为模仿学习与行为克隆算法的验证提供了标准化基准。该数据集通过双机械臂执行堆叠杯子的精细操作任务，采集了35个完整演示片段，涵盖14维关节空间状态与动作轨迹，并同步记录多个视角的高清视觉观测。研究者常将其作为评估模型在分布内场景下泛化能力的试金石，通过对比模型预测动作与真实专家轨迹的偏离程度，衡量算法对操作技能的复现精度。

实际应用

在实际应用中，该数据集训练的策略可直接部署于双机械臂协作的工业生产场景，例如电子产品精密装配或实验室耗材整理任务。基于视觉反馈的关节控制输出能够适配柔性生产线中重复性高、精度要求严格的物块堆叠工序。此外，数据集包含的标准化时间序列控制指令还可用于开发人机协作场景下的技能示教系统，降低非专业用户对工业机器人编程的门槛，加速智能仓储领域中自动化分拣与整理流程的落地。

衍生相关工作

该数据集衍生了一系列具有代表性的研究工作，包括利用扩散策略生成多模态动作分布以增强操作柔顺性，以及基于Transformer的架构将视觉特征直接映射为关节级控制指令。部分工作进一步探索了非对称双手机器人系统中左右手策略解耦与协同的建模方法。同时，数据集作为LeRobot生态的组成部分，推动了可控演示生成、数据增强与跨具身策略迁移等方向的发展，为构建通用操作基础模型提供了可复用的数据凭证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集