eval_pi05_candy_sorting_ood

Name: eval_pi05_candy_sorting_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:50
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_pi05_candy_sorting_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot工具创建，是一个面向机器人学任务的开源数据集，采用Apache-2.0许可证。数据集核心内容为双机械臂（bi_yam_follower）的演示数据，旨在支持模仿学习或视觉运动策略学习等研究。数据集包含24条完整轨迹（episodes），共计15,757个时间步（帧），涵盖4种不同的任务。数据以多模态形式组织：1) 动作空间：包含左右机械臂各6个关节的位置指令以及左右夹爪的位置指令，共14维浮点数向量；2) 观测空间：包含与动作空间对应的14维机械臂关节状态，以及来自三个固定视角（右、左、顶）的同步RGB视频流。每个视频帧分辨率为360x640，以30fps录制，采用AV1编码。此外，数据还包含时间戳、帧索引、轨迹索引、任务索引等元数据字段。数据以分块Parquet文件格式存储，并配有独立的MP4视频文件。该数据集适用于训练和评估基于视觉的双机械臂控制模型。

This dataset is created using the LeRobot tool and is an open-source dataset for robotics tasks, licensed under Apache-2.0. The core content consists of demonstration data for a dual robotic arm (bi_yam_follower), aimed at supporting research such as imitation learning or visual-motor policy learning. It includes 24 complete episodes, totaling 15,757 timesteps (frames), covering 4 different tasks. The data is organized in a multimodal format: 1) Action space: includes position commands for 6 joints of each left and right robotic arm, plus position commands for left and right grippers, forming a 14-dimensional floating-point vector; 2) Observation space: includes corresponding 14-dimensional joint states of the robotic arms, along with synchronized RGB video streams from three fixed perspectives (right, left, top). Each video frame has a resolution of 360x640, recorded at 30fps with AV1 encoding. Additionally, the data contains metadata fields such as timestamps, frame indices, episode indices, and task indices. It is stored in chunked Parquet file format with separate MP4 video files. This dataset is suitable for training and evaluating vision-based dual robotic arm control models.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

原始信息汇总

数据集概述

数据集名称：allenai/eval_pi05_candy_sorting_ood
许可证：Apache-2.0
任务类型：机器人学（Robotics）
标签：LeRobot

数据集描述

该数据集通过 LeRobot 创建，暂未提供主页和论文链接。

数据集结构

元数据

代码库版本：v3.0
机器人类型：bi_yam_follower
总片段数：24
总帧数：15,757
总任务数：4
数据块大小：1,000 帧
数据文件大小：约 100 MB
视频文件大小：约 200 MB
帧率（FPS）：30

数据划分

训练集：全部 24 个片段（无验证/测试集）

数据存储路径

数据文件：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

字段名	数据类型	形状	说明
`action`	float32	(14,)	动作指令，包含左右各 6 个关节位置和 1 个夹爪位置
`observation.state`	float32	(14,)	状态观测，与动作结构相同
`observation.images.right`	video	(360, 640, 3)	右侧摄像头视频，AV1 编码，30 FPS
`observation.images.left`	video	(360, 640, 3)	左侧摄像头视频，AV1 编码，30 FPS
`observation.images.top`	video	(360, 640, 3)	顶部摄像头视频，AV1 编码，30 FPS
`timestamp`	float32	(1,)	时间戳
`frame_index`	int64	(1,)	帧索引
`episode_index`	int64	(1,)	片段索引
`index`	int64	(1,)	全局索引
`task_index`	int64	(1,)	任务索引

引用信息

暂未提供 BibTeX 引用格式。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，分布外泛化能力的评估是验证模型鲁棒性的关键环节。eval_pi05_candy_sorting_ood数据集专为此设计，由LeRobot框架构建而成，共包含24个演示片段与15757帧数据，涵盖4种不同的糖果分拣任务。数据经由双机械臂机器人平台采集，每一条轨迹同步记录了14维关节角度与末端执行器动作指令，作为动作与状态观测。数据以Parquet格式储存于分块文件中，对应的多视角视频（左、右、顶视图）则以AV1编码压缩，所有数据均在30帧每秒的固定帧率下采集，确保时序一致性与动作流畅性。

特点

该数据集的核心特点在于其面向分布外场景的设计理念，所有任务均针对糖果分拣这一具体操作背景，但各任务之间存在显著差异，从而有效考验模型在未见情境下的适应能力。每一帧均包含三路RGB图像（尺寸360×640像素）、14维关节空间状态以及对应的动作指令，共同构成高维度的多模态观测空间。此外，数据集严格按照固定分块大小进行组织，支持高效的随机访问与流式加载，便于在大规模训练流程中快速迭代。这些特性使其成为评估机器人操纵策略泛化性能的理想基准。

使用方法

用户可借助LeRobot生态系统便捷地加载此数据集，通过Python接口从Parquet文件中直接读取归一的观测与动作张量。数据集已预设训练集划分，将全部24个情节统一纳入训练阶段，适合用于模仿学习或离线强化学习的训练与评估。配套的视频文件可按需解码，为视觉策略研究提供高保真图像输入。使用方法上，仅需指定数据集路径并调用LeRobot提供的DataLoader工具，即可自动完成帧采样与批处理，无缝集成至现有研究管线中，大幅降低预处理复杂度。

背景与挑战

背景概述

在机器人学习领域，模仿学习通过从专家演示中提取策略，已成为赋予机器人灵巧操作能力的关键范式。eval_pi05_candy_sorting_ood数据集由Hugging Face团队基于LeRobot框架创建，专注于评估机器人在分布外场景下的泛化性能。该数据集包含24个回合、约15757帧的遥操作数据，记录了双机械臂（bi_yam_follower）执行糖果分拣任务的过程，涵盖4类子任务。数据集配备了左右双视角及顶部摄像头的高清影像（360×640，30fps），以及14维的动作与状态序列（包括关节位置与夹爪状态）。其研究核心在于测试机器人面对训练分布外的新物体、新布局或光照变化时的适应能力，为机器人操作的鲁棒性研究提供了标准化基准，推动了对“填鸭式”模仿学习局限性的系统性反思。

当前挑战

该数据集所攻克的核心挑战在于机器人操作领域长期存在的分布外泛化困境：传统模仿学习模型在训练环境内表现优异，却难以应对测试时物体位置偏移、夹爪材质变化或背景噪声等微小扰动，导致真实部署中性能崩塌。构建过程中，数据集刻意设计为小规模（24回合）、多任务异质分布，以模拟工业场景中数据稀缺且任务多样化的现实约束；同时，通过隐式引入任务索引（task_index）但保持状态空间同域，迫使模型仅依赖视觉与状态信息进行意图解耦，而非预定义类别。此外，视频数据采用AV1编解码与parquet稀疏存储，在降低存储成本的同时需平衡高频传感（30fps）下的时序连贯性，对数据采集管线与特征对齐提出了精密要求。

常用场景

经典使用场景

在机器人操作与模仿学习领域，eval_pi05_candy_sorting_ood数据集专为评估分布外（Out-of-Distribution, OOD）场景下的糖果分拣任务而设计。该数据集依托LeRobot框架，采集自双臂机器人平台，包含24个高清视频与14维关节动作轨迹，覆盖多种视觉观测视角。其核心应用在于测试模型在面对未见过的物品排列、光照变化或机械扰动时的泛化能力，是验证机器人学习算法鲁棒性的经典基准。

衍生相关工作

基于该数据集，衍生出多项探索OOD泛化策略的经典工作，包括引入数据增强对抗网络（Data Augmentation GAN）合成极端光照样本，以及利用逆强化学习（Inverse Reinforcement Learning）从有限轨迹中推断鲁棒奖励函数。部分研究还结合视觉语言模型（VLM）构建跨模态分拣指令解析框架，进一步拓展了数据集在零样本任务迁移中的价值。这些工作共同丰富了分布外环境下机器人学习的理论体系与算法库。

数据集最近研究