eval_pi05_cup_stacking_ood

Name: eval_pi05_cup_stacking_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:45:09
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_pi05_cup_stacking_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot工具创建的机器人学数据集，采用Apache 2.0许可证，专为机器人相关任务设计。数据来自一个名为bi_yam_follower的双臂机器人平台，包含20个完整任务片段（episodes），共计13,979帧数据，对应2个不同任务。数据以分块形式组织，总数据文件大小约为100MB，视频文件大小约为200MB，视频帧率为30fps。数据集包含训练集，涵盖所有20个片段。核心数据特征包括：1) 动作数据（action）：包含左右机械臂各6个关节的位置和左右夹爪的位置，共14维浮点向量；2) 状态观测（observation.state）：与动作数据维度相同的机器人关节状态；3) 多视角图像观测（observation.images.right/left/top）：三个视角（右、左、顶）的RGB视频数据，分辨率为640x360，编码格式为AV1；4) 元数据：包括时间戳、帧索引、片段索引、数据索引和任务索引。该数据集适用于机器人模仿学习、行为克隆、策略学习等任务的研究与开发。

This dataset is a robotics dataset created using the LeRobot tool under the Apache 2.0 license, designed for robot-related tasks. The data comes from a dual-arm robot platform named bi_yam_follower, containing 20 complete task episodes with a total of 13,979 frames, corresponding to 2 different tasks. The data is organized in chunks, with a total data file size of approximately 100MB, video file size of about 200MB, and a video frame rate of 30fps. The dataset includes a training set covering all 20 episodes. Key data features include: 1) Action data (action): includes positions of 6 joints for each of the left and right robotic arms and positions of the left and right grippers, forming a 14-dimensional floating-point vector; 2) State observation (observation.state): robot joint states with the same dimensions as the action data; 3) Multi-view image observations (observation.images.right/left/top): RGB video data from three views (right, left, top) with a resolution of 640x360, encoded in AV1 format; 4) Metadata: includes timestamps, frame indices, episode indices, data indices, and task indices. This dataset is suitable for research and development in tasks such as robot imitation learning, behavior cloning, and policy learning.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

原始信息汇总

数据集概述

数据集名称: eval_pi05_cup_stacking_ood
提供者: Allen Institute for AI (allenai)
许可证: Apache-2.0
任务类别: 机器人学 (Robotics)
标签: LeRobot

数据集结构

机器人类型: bi_yam_follower
总片段数 (Episodes): 20
总帧数 (Frames): 13,979
总任务数 (Tasks): 2
分块大小 (Chunks): 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率 (FPS): 30
数据划分: 全部20个片段用于训练 (train: 0:20)

特征说明

数据集包含以下特征：

action (动作): float32 类型，形状为 [14]，包含左右各6个关节位置和1个夹爪位置。
observation.state (观测状态): float32 类型，形状为 [14]，与 action 结构相同。
observation.images.right (右摄像头图像): 视频数据，分辨率 360x640，3通道，AV1编码，30 FPS。
observation.images.left (左摄像头图像): 视频数据，分辨率 360x640，3通道，AV1编码，30 FPS。
observation.images.top (顶部摄像头图像): 视频数据，分辨率 360x640，3通道，AV1编码，30 FPS。
timestamp (时间戳): float32 类型，形状 [1]。
frame_index (帧索引): int64 类型，形状 [1]。
episode_index (片段索引): int64 类型，形状 [1]。
index (索引): int64 类型，形状 [1]。
task_index (任务索引): int64 类型，形状 [1]。

数据文件格式

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

论文和主页信息尚未提供，BibTeX 引用待补充。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，旨在为机器人领域的模仿学习与操作任务提供标准化数据支持。数据采集自双机械臂系统（bi_yam_follower），通过遥操作方式记录人类演示的杯子堆叠动作。数据包含20个完整回合（episode），总计13979帧，涵盖2种不同的堆叠任务。原始数据以PARQUET格式存储，用于保存机器人关节位置、夹爪状态等结构化信息，而视觉观测则通过多视角摄像头（左侧、右侧及顶部）以AV1编码的MP4视频形式记录，分辨率为360×640，帧率为30FPS。数据集被划分为单一训练集（0:20），并以分块方式组织，便于高效加载与处理。

特点

该数据集的核心特点在于其针对分布外（Out-of-Distribution, OOD）任务的泛化能力评估设计。所有回合均专注于杯子堆叠这一精细操作场景，但通过变更目标配置或环境条件，挑战模型在未见过的堆叠模式下的适应能力。数据维度涵盖14维动作空间（包括左右臂各6个关节位置及一个夹爪状态）与对应的观测状态，同时提供三个同步的视觉输入流，为多模态融合的机器人学习提供了丰富素材。此外，数据集的规模适中（总帧数约1.4万，物理存储约300MB），适合作为基准测试集，用于验证算法在控制精度与视觉推理上的鲁棒性。

使用方法

使用本数据集时，推荐通过LeRobot库进行加载与预处理。用户可直接引用HuggingFace上的数据集标识符（eval_pi05_cup_stacking_ood），利用其内置的数据管道读取PARQUET文件与视频流。对于模仿学习任务，可将`action`字段作为监督信号，`observation.state`和`observation.images`作为输入特征，构建端到端的策略网络。由于数据集已预定义训练集，无需额外划分，但可依据`episode_index`或`task_index`进行交叉验证或特定任务的子集提取。建议在评估模型时，优先测试其对OOD任务的零样本泛化性能，以衡量模型在实际场景中的适应能力。

背景与挑战

背景概述

在机器人操作领域，数据驱动的模仿学习已成为实现复杂灵巧操作的关键范式。eval_pi05_cup_stacking_ood数据集由LeRobot社区主导构建，依托HuggingFace平台发布，专注于双机械臂协作场景下的杯子堆叠任务。该数据集创建于2024年，包含20个演示回合、近1.4万帧时序数据，采用14维关节空间动作与状态表征，并融合右、左、顶部三视角视频流（640×360分辨率、30fps）。其核心研究问题在于评估机器人学习算法在分布外（OOD）场景下的泛化能力，为多任务模仿学习、域迁移及鲁棒控制提供了标准化测试基准。数据集的发布填补了双机协作精细操作领域缺乏高保真OOD基准的空白，对推动机器人操作从实验室环境向非结构化现实场景的迁移具有重要价值。

当前挑战

该数据集所解决的领域问题核心在于双机器人协作场景中的分布外泛化挑战，即机器人需在未见过的工作台布局、光照条件或目标初始位姿下，精准执行杯子的抓取、堆叠与齐平操作。从构建角度而言，其挑战体现在三方面：第一，高精度运动学同步，双机械臂（bi_yam_follower型）需在14维动作空间中协调左右臂与夹爪的时序一致性；第二，多模态数据配准，14379帧中图像（含AV1编码）与关节状态（float32）需严格时间戳对齐，以消除传感器异步噪声；第三，小样本代表性，仅20回合的演示需覆盖足够多的OOD变体，如杯子尺寸差异与堆叠序列随机性，这要求任务设计时精心编排分布偏移程度以避免过拟合到特定模式。

常用场景

经典使用场景

在机器人学习领域，数据驱动的策略学习已成为主流范式，而灵巧操作任务对感知与控制提出了极高要求。eval_pi05_cup_stacking_ood数据集专为评估机器人双机械臂在分布外场景下的杯具堆叠能力而设计，其核心使用场景聚焦于测试模仿学习与强化学习策略的泛化鲁棒性。数据集通过20个示范片段、13979帧时序数据，记录了14维动作空间与多视角视觉观测（左、右、顶部摄像头），涵盖两种不同任务设置。研究者可借助该数据集系统性地分析算法在环境配置、物体位置或初始状态发生偏移时的适应能力，从而推动从封闭实验室条件向开放动态环境迁移的智能操作研究。

衍生相关工作

基于该数据集，研究社区已衍生出多项推动领域发展的相关工作。在算法层面，研究者利用它比较了行为克隆、扩散策略与基于Transformer的端到端模型在OoD场景下的性能差异，揭示了隐式策略相对于显式策略的泛化优势。在表征学习方面，学者探索了视觉特征层级对齐与动作空间正则化对跨场景迁移的影响，提出了结合中间层特征约束的鲁棒训练框架。此外，数据集还催生了针对双机械臂协同动作为优化目标的奖励函数设计研究，以及基于仿真数据与真实数据混合训练的域适应方法。这些工作共同彰显了eval_pi05_cup_stacking_ood作为泛化能力试金石的重要学术地位。

数据集最近研究