eval_xvla_cup_stacking_ood

Name: eval_xvla_cup_stacking_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:45:01
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_xvla_cup_stacking_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人演示数据集，使用LeRobot框架创建，专门用于机器人学研究和应用。数据集基于双臂机器人平台bi_yam_follower，以episodes和frames形式组织，包含25个episodes，总计16096个frames，覆盖3个不同任务。数据以Parquet文件格式存储，并配有MP4格式视频文件。每个样本包含丰富的多模态信息：动作空间由14个浮点数组成，代表左右机械臂的6个关节位置和1个夹爪位置；观测空间包括相同的14维机器人本体状态，以及来自三个固定摄像头（右、左、顶）的RGB视频观测，每个视频分辨率为640x360，帧率为30 FPS。此外，数据还包含时间戳、帧索引、episode索引和任务索引等元数据。该数据集适用于机器人模仿学习、行为克隆、离线强化学习以及多模态感知与控制策略的研究与开发。

This dataset is a robot demonstration dataset created using the LeRobot framework, specifically designed for robotics research and applications. The core content originates from a dual-arm robot platform named bi_yam_follower. The data is organized in episodes and frames, comprising 25 episodes with a total of 16096 frames, covering 3 different tasks. It is stored in Parquet file format and accompanied by corresponding MP4 video files. Each sample in the dataset includes rich multimodal information: the action space consists of 14 floating-point numbers representing the joint positions (6 per arm) and gripper positions (1 per arm) of both robotic arms; the observation space contains the same 14-dimensional robot state as the action space, along with RGB video observations from three fixed cameras (right, left, top), each with a resolution of 640x360 and a frame rate of 30 FPS. Additionally, the data includes metadata such as timestamps, frame indices, episode indices, and task indices. This dataset is suitable for research and development in robot imitation learning, behavior cloning, offline reinforcement learning, and multimodal perception and control strategies.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

该数据集依托于LeRobot框架构建，专为机器人操作任务中的泛化性挑战而设计。数据采集自双机械臂系统“bi_yam_follower”，通过遥操作完成杯子堆叠任务，并刻意引入分布外（OOD）场景以评估模型的鲁棒性。数据集包含25个轨迹片段，共计16096帧时序数据，覆盖3类子任务。数据以Parquet格式存储关节状态与动作指令，同时以AV1编码的视频文件记录三个视角（左、右、顶部）的视觉观测，帧率为30FPS。元信息文件详细记录了特征维度、分块策略及训练集划分（完整25个轨迹均用于训练），体现了规范化与可复现的数据管理流程。

特点

此数据集的核心特色在于其专注于“分布外泛化”的评估场景，通过非典型堆叠任务变体来测试机器人学习算法的适应性。多模态数据融合了14维关节角度与7维夹爪指令的动作空间、14维本体状态观测，以及360x640分辨率的三视角视觉流，为模仿学习与强化学习提供了丰富的输入通道。数据规模适中（约100MB结构化数据与200MB视频数据），适合快速迭代实验。此外，任务索引字段允许对多个子任务进行精细化的训练与评测，凸显了其在机器人操作领域基准测试中的独特价值。

使用方法

用户可通过LeRobot库便捷地加载此数据集。首先安装LeRobot及其依赖项，然后使用`lerobot.Dataset`接口指定数据集路径或HuggingFace标识符即可读取。数据返回为字典结构，包含动作、状态、图像、时间戳及索引等键。图像以视频帧形式存储，可解码为张量用于视觉编码器输入。建议将完整25个轨迹用于训练，并通过自定义OOD场景拆分来构建验证集，以评估模型在未知分布上的表现。对于多任务学习，可利用`task_index`字段区分不同堆叠策略，从而实现条件策略的部署与测试。

背景与挑战

背景概述

在具身智能与机器人操作领域，数据驱动的方法日益成为推动技能学习与泛化能力提升的核心引擎。eval_xvla_cup_stacking_ood数据集由Hugging Face LeRobot社区基于Bi-Yam双臂机器人平台构建，发布于2024年，旨在评估视觉-语言-动作模型在堆叠杯子这类精细操作任务中的分布外泛化性能。该数据集包含25个演示片段、16096帧多视角视觉观测（右、左、顶部摄像头）及14维关节空间动作序列，覆盖3种不同任务。其核心研究问题聚焦于：在训练与测试场景存在显著分布偏移时，机器人能否借助有限的示范数据习得稳健的操作策略。作为LeRobot生态的重要评测基准，该数据集为比较不同模仿学习与离线强化学习算法在开放环境下对未知杯子颜色、形状或布局的适应能力提供了标准化测试平台，对推动通用机器人操作技能的泛化研究具有关键价值。

当前挑战

该数据集所针对的领域挑战在于：现有模仿学习方法在面对与训练数据分布迥异的测试环境时，性能急剧退化，具体表现为面对未见过杯子颜色、质地、摆放角度或光照条件时，堆叠动作成功率的显著下降。此外，构建过程中面临多重困难：首先，双臂协调动作的高维状态空间（14关节+双夹爪）与精细抓取要求的亚毫米级精度，对数据采集的同步性与一致性提出极高要求；其次，25个演示片段的有限样本量，迫使研究者探索更高效的数据增强技术与少样本泛化机制；最后，多视角视频、本体感知与动作轨迹的高频（30fps）同步录制，需解决传感器延迟差异与数据对齐的技术瓶颈，以确保状态-动作对的时空一致性。

常用场景

经典使用场景

在具身智能与机器人操作领域，eval_xvla_cup_stacking_ood数据集专为评估视觉-语言-动作模型在分布外场景下的泛化能力而设计。该数据集聚焦于杯子堆叠这一精细操作任务，通过采集双臂机器人（bi_yam_follower）在多样化环境中的25个完整演示片段，提供了包括左右关节角度、夹爪状态以及多视角（左、右、顶）视觉图像在内的多模态数据。其经典使用场景在于衡量模型在面对未见过布局、光照变化或物体偏移等分布外情形时，是否能够可靠地完成序列化操作任务，从而检验模型对物理世界因果关系的理解与适应能力。

衍生相关工作

基于eval_xvla_cup_stacking_ood数据集，学术界已催生出一系列富有影响力的后续研究。例如，研究者通过在该数据集上对比不同动作表示（如关节空间与任务空间）对泛化性能的影响，提出了基于不变风险最小化的训练框架；另有工作探索了结合扩散模型与因果干预的模仿学习范式，显著提升了分布外任务中的成功率。该数据集还推动了多模态融合技术的进步，例如利用大语言模型为观察图像生成结构化描述，再将语义信息注入动作解码器，从而实现了对未见场景的零样本适应。这些衍生工作共同构成了理解机器人分布外学习机制的重要基石。

数据集最近研究