eval_pi05_test_tube_ood

Name: eval_pi05_test_tube_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:45:02
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_pi05_test_tube_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该机器人数据集使用LeRobot框架创建，专为机器人学习任务设计。数据集包含25个完整操作序列（episodes），总计13,698帧数据，涵盖3种不同的任务。数据采用多模态形式存储：结构化数据以Parquet格式保存（约100MB），包含机器人的动作指令、关节状态观测和元数据；同时提供对应的多视角视频文件（约200MB，MP4格式，AV1编码，30fps）。核心数据特征包括：14维的动作空间（控制左右机械臂各6个关节和夹爪的位置）、14维的状态观测空间（与动作空间对应）、以及来自三个固定视角（右、左、顶部）的RGB视觉观测，每个视频帧分辨率为360x640。此外，数据集还记录了时间戳、帧索引、episode索引和任务索引等元信息。该数据集适用于机器人模仿学习、强化学习、多模态感知与控制等研究领域，目前仅提供训练集划分。

This robot dataset is created using the LeRobot framework and is specifically designed for robot learning tasks. The dataset contains 25 complete operation sequences (episodes), totaling 13,698 frames of data, covering three different tasks. Data is stored in a multimodal format: structured data is saved in Parquet format (approximately 100MB), including robot action commands, joint state observations, and metadata; corresponding multi-view video files are also provided (approximately 200MB, MP4 format, AV1 encoding, 30fps). Core data features include: a 14-dimensional action space (controlling the positions of 6 joints and the gripper for each of the left and right robotic arms), a 14-dimensional state observation space (corresponding to the action space), and RGB visual observations from three fixed perspectives (right, left, top), with each video frame having a resolution of 360x640. Additionally, the dataset records metadata such as timestamps, frame indices, episode indices, and task indices. This dataset is suitable for research areas such as robot imitation learning, reinforcement learning, and multimodal perception and control, and currently only provides a training set partition.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

该数据集是专为机器人操作任务设计的评测基准，采用LeRobot框架构建，基于Bi-Yam跟随机器人平台采集。数据涵盖25个完整回合，总计13698帧，包含3种不同任务，确保任务多样性与数据总量间的平衡。采集过程中，机器人状态观测包括左右臂各6个关节位置与夹爪状态，以及顶部、左、右三个视角的RGB视频流，视频分辨率为360×640，帧率30 FPS。数据以Parquet格式存储高效数值信息，视频则采用AV1编码压缩，整体数据与视频文件分别约为100 MB和200 MB。为便于高效访问与随机读取，数据被划分为多个大小为1000帧的块，并配套元数据文件meta/info.json详细记录特征结构与路径管理。

特点

数据集最显著的特点在于其高度结构化的多模态整合能力，每个时间步长均同时记录14维动作指令、14维关节状态观测、三视角同步视频、时间戳、帧索引、回合索引及任务标识。视频特征以'video'形态存储，包含编码格式、帧率、色彩空间等丰富元信息，支持高效解码与回放。所有动作与状态数据均采用float32精度，保证数值计算精确性。此外，数据集明确划分训练集为完整25个回合，便于直接用于模仿学习或强化学习算法的训练与评估，且支持基于chunk的分块加载机制，适应大规模流式处理需求。

使用方法

采用LeRobot库作为核心工具进行数据加载与处理，用户可通过lerobot.datasets模块直接读取该数据集。加载时需指定数据路径与config名称'default'，系统将自动根据info.json中的chunk索引与文件路径模式解析所有Parquet文件与MP4视频。每个step返回一个字典，包含动作、观测状态、多视角图像帧、时间戳及索引信息，图像数据已预先解码为numpy数组便于深度学习框架直接使用。可根据'episode_index'字段按回合组织数据，通过'task_index'筛选特定任务，结合同步的时间戳与帧索引实现精确的时序对齐与回放。

背景与挑战

背景概述

该数据集由Hugging Face社区基于LeRobot框架创建，聚焦于双机械臂机器人操控任务的模仿学习研究。在机器人学习领域，从人类示范中提炼行为策略是解决复杂任务泛化难题的核心路径之一。数据集通过采集25个演示回合、涵盖3种操作任务，并利用双机械臂系统（bi_yam_follower）记录14维关节动作与多视角视觉观测（左、右、顶视摄像头），为离线模仿学习算法提供了结构化训练样本。其设计强调对“分布外”（out-of-distribution）场景的评估能力，旨在推动机器人模型在未知环境中的鲁棒性研究。作为LeRobot生态的组成部分，该数据集通过Apache-2.0协议开放，降低了机器人数据获取的门槛，为学术界与工业界复制和扩展模仿学习实验提供了标准化基准。

当前挑战

该数据集面临的核心挑战源于机器人操控的开放性与数据稀缺性。在领域问题层面，模仿学习模型需从有限演示（仅25回合）中提取通用的任务表征，但现实环境中的光照变化、物体姿态偏移及双机械臂协调的动力学非线性和高自由度（14个关节）特性，极易导致策略在新场景中的灾难性失败，尤其“分布外”评估进一步放大了对隐式因果推理与运动适应性能力的需求。在构建层面，数据采集依赖精细的人类远程操作（通过LeRobot记录），但多模态异构数据（即14维连续动作、30FPS视频流与时间戳）的时空对齐与噪声过滤极为繁琐；此外，单任务仅有8个回合，在保障演示质量的同时规避示范策略的局部最优，对专家操作的一致性与标注成本构成了严峻考验。

常用场景

经典使用场景

在机器人学习与操控领域，eval_pi05_test_tube_ood 数据集被广泛用于评估模仿学习算法在分布外（OOD）场景下的泛化能力。该数据集基于 bi_yam_follower 机器人平台，采集了包含双目视觉与顶部视角的多模态观测数据，以及14维关节动作序列，覆盖 3 种操控任务共 25 个完整回合。研究者通常将其作为测试基准，衡量模型在面对未见过的环境变化、物体布局或任务变体时的鲁棒性，尤其关注动作预测的连续性与精确性。

衍生相关工作

围绕该数据集，衍生出多项关键研究方向，包括基于视觉-运动联合表征的域泛化方法、对抗性分布偏移下的动作修复策略，以及利用扩散模型进行轨迹插值的泛化增强技术。部分经典工作聚焦于如何通过数据增强或显式不确定度建模来提升模型在 OOD 场景下的表现，另一些则探索了跨任务与跨平台的技能迁移，利用该数据集作为验证集来比较不同算法在相似机器人结构上的迁移效率。这些工作共同丰富了机器人模仿学习从实验室控制到开放世界应用的演化路径。

数据集最近研究