eval_openvla_cup_stacking_ood

Name: eval_openvla_cup_stacking_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:39
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_openvla_cup_stacking_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学数据集，使用LeRobot工具创建，包含双机械臂系统的演示数据，旨在支持机器人模仿学习、强化学习或视觉运动控制等任务的研究与开发。数据集由25个完整的任务执行片段（episodes）组成，总计30,143个数据帧，覆盖3种不同的任务。数据以块（chunk）的形式组织，每块包含1000帧。数据总大小约为100MB，关联的视频文件总大小约为200MB，视频帧率为30 FPS。数据仅包含训练集，涵盖了所有25个片段。核心特征包括：1. 动作（action）：一个14维的浮点数向量，分别控制左机械臂的6个关节和1个夹爪的位置，以及右机械臂的6个关节和1个夹爪的位置。2. 观测（observation）：包含状态和图像信息。状态观测是一个14维浮点数向量，记录了左右机械臂各关节和夹爪的实时位置。图像观测提供了三个固定视角（右侧、左侧、顶部）的RGB视频流，每个视频流的分辨率为360x640像素，包含3个颜色通道，采用AV1编码，帧率为30 FPS。3. 元数据：包括时间戳、帧索引、片段索引、全局数据索引和任务索引，用于精确定位和序列重建。数据集采用Apache-2.0许可证。

This dataset is a robotics dataset created using the LeRobot tool, containing demonstration data for a dual-arm robotic system, designed to support research and development in tasks such as robot imitation learning, reinforcement learning, or visual-motor control. The dataset consists of 25 complete task execution episodes, totaling 30,143 data frames, covering 3 different tasks. Data is organized in chunks, with each chunk containing 1000 frames. The total data size is approximately 100 MB, and the associated video files total about 200 MB, with a frame rate of 30 FPS. The data includes only the training set, covering all 25 episodes. Key features include: 1. Action: a 14-dimensional floating-point vector controlling the positions of 6 joints and 1 gripper for the left arm, and 6 joints and 1 gripper for the right arm. 2. Observation: includes state and image information. The state observation is a 14-dimensional floating-point vector recording the real-time positions of the joints and grippers of both arms. The image observation provides RGB video streams from three fixed perspectives (right, left, top), each with a resolution of 360x640 pixels, 3 color channels, AV1 encoding, and a frame rate of 30 FPS. 3. Metadata: includes timestamps, frame indices, episode indices, global data indices, and task indices for precise localization and sequence reconstruction. The dataset is licensed under Apache-2.0.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

在机器人学习领域，泛化性评估是衡量模型在未知环境中适应能力的关键。eval_openvla_cup_stacking_ood数据集正是为此而生，专为评估开放世界视觉-语言-动作（OpenVLA）模型在杯子堆叠任务上的分布外泛化性能而构建。该数据集基于LeRobot框架开发，通过双机械臂（bi_yam_follower）采集了25个示范片段，涵盖3种不同任务，总计30143帧数据。数据采集频率为30帧每秒，以1000帧为一个数据块进行组织，采用Parquet格式存储结构化数据，并配合同步录制的AV1编码视频，确保高保真度的环境感知信息。

特点

该数据集的核心特点在于其精细化的多模态数据结构和针对泛化测试的精心设计。数据包含14维的机器人关节动作指令（action）与状态观测（observation.state），覆盖左右臂的六个关节位置及夹爪状态。同时，数据集提供了来自右、左、顶三个视角的RGB视频流（640×360像素，30fps），为模型提供丰富的视觉上下文。其名称中的'ood'标志性后缀，暗示了该数据集在场景布局、物体位置或光照条件等分布外变量上的刻意挑战，旨在测试模型在未训练环境下的鲁棒性。此外，全量数据被悉数划分为训练集，便于研究者灵活重构验证方案。

使用方法

使用该数据集时，研究者需依托LeRobot库进行数据加载与预处理。可通过其数据路径规范（如data/chunk-{index:03d}/file-{index:03d}.parquet）索引Parquet文件，并借助内置的视频路径配置（videos/{video_key}/chunk-{index:03d}/file-{index:03d}.mp4）同步读取多视角视频。数据集采用统一的14维动作空间与状态空间，便于直接对接OpenVLA等模型的输入接口。值得注意的是，当前配置未预设验证/测试划分，使用者可依据研究目的自主拆分片段索引（0-24），或设计对抗性采样策略以强化分布外测试的严苛性。

背景与挑战

背景概述

该数据集名为eval_openvla_cup_stacking_ood，由Hugging Face的LeRobot社区构建，采用Apache-2.0许可协议，专注于机器人操作领域中的鲁棒性评估。其核心研究问题聚焦于评估开放视觉语言动作模型（OpenVLA）在面对分布外（Out-of-Distribution, OOD）场景时的泛化能力，特别是在杯具堆叠这一精细操作任务上的表现。数据集包含25个演示片段，覆盖3种任务变体，通过双机械臂（bi_yam_follower）采集30帧/秒的高频状态与多视角图像数据，为研究模型在未见过的环境变化（如物体位置偏移、光照条件改变）中的适应性提供了标准化测试基准。作为连接仿真训练与真实部署之间差距的关键工具，该数据集推动了机器人学习中泛化性评估的规范化进程。

当前挑战

数据集所解决的领域挑战在于机器人操作模型在分布外场景下的脆弱性，即模型在训练分布内表现优异，却因环境微小扰动而性能骤降，这是阻塞机器人技能通用化的核心瓶颈。构建过程面临三重挑战：首先，需设计能有效暴露模型缺陷的OOD场景，如杯具排列方式、堆叠角度变异，这要求精细控制实验变量以涵盖关键变化轴；其次，双机械臂的14维联合状态与多视角视频流的同步采集易引入噪声与延迟，需借助LeRobot的chunk存储机制确保数据质量；最后，在仅25个有限示范的约束下，既要保证任务多样性，又要维持演示的物理一致性，这对任务分解与数据筛选提出了高要求。

常用场景

经典使用场景

在机器人操作领域，评估模型在分布外场景下的泛化能力是验证其鲁棒性的关键环节。eval_openvla_cup_stacking_ood数据集专为评估视觉-语言-动作（VLA）模型在杯子堆叠任务中的分布外泛化性能而设计，涵盖25个高质量演示片段，包含超过3万帧多视角图像（左、右、顶视）与14维关节状态及控制指令。该数据集通过引入与训练分布显著不同的环境变化，如物体位置偏移、光照条件改变或操作配置差异，为测试模型在未见场景中的适应能力提供了标准化基准，成为衡量开放世界机器人学习系统鲁棒性的重要工具。

衍生相关工作

该数据集衍生出的经典工作主要围绕分布外泛化瓶颈的诊断与改进策略。研究者基于其多模态特征结构，开发了层级化注意力蒸馏方法，通过显式分离视觉与动作流中的不变特征来提升鲁棒性；另有工作提出对抗式场景重组框架，自动生成最具挑战性的环境扰动以评估模型安全边界。此外，该数据集被用作开放词汇操作（Open-Vocabulary Manipulation）的评估基准，催生了结合大语言模型先验知识与运动规划器的混合架构，这些工作共同推动了从封闭域强化学习向开放世界推理的范式转变。

数据集最近研究