openpi

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/zhicao/openpi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Real-World Franka Panda Task Data，专注于机器人操作任务，包含真实世界中使用Franka Panda机器人收集的数据。数据集涵盖四项具体任务：将粉色面条放入碗中、将面包放入碗中、将意大利面倒入锅中以及关闭右侧橱柜门。每项任务包含90个训练演示和10个验证演示。数据以HDF5格式存储，包括动作数据（10维绝对末端执行器姿态）、来自两个视角（agentview和eye-in-hand）的视频数据（224x224分辨率）、末端执行器状态和任务嵌入（BERT编码，768维）。图像数据经过方形中心裁剪预处理，从原始ZED VGA分辨率（672×376）裁剪为376×376后缩放到224×224。动作数据包含位置（x, y, z，单位米）、6D旋转（旋转矩阵的前两行）和夹持器宽度（0为闭合，0.08为打开）。数据采集使用Franka Panda机器人，配备两个ZED Mini相机（agentview和eye-in-hand视角），控制频率为10Hz，通过GELLO进行遥操作。

创建时间：

2026-04-15

原始信息汇总

Real-World Franka Panda Task Data (224px Square Center Crop)

数据集概述

许可证: MIT
任务类别: 机器人学
标签: franka-panda, manipulation, real-world, 224x224, square-center-crop

任务列表

任务	描述	训练演示数量	验证演示数量
task_1	将粉色面条放入碗中	90	10
task_2	将面包放入碗中	90	10
task_3	将意大利面倒入锅中	89	10
task_4	关闭右侧橱柜门	90	10

数据格式

每个演示是一个HDF5文件，包含以下键：

actions: 形状为 (T, 10) 的 float64 数组，表示动作序列。格式为 [位置(3), 6D旋转(6), 夹爪状态(1)]。
agentview/video: 形状为 (1, T, 3, 224, 224) 的 uint8 数组，表示代理视角视频。
eye_in_hand/video: 形状为 (1, T, 3, 224, 224) 的 uint8 数组，表示手眼视角视频。
extra_states/ee_states: 形状为 (T, 10) 的 float64 数组，表示当前末端执行器状态，格式与动作相同。
task_emb_bert: 形状为 (768,) 的 float32 数组，表示任务嵌入。

图像预处理

图像从ZED VGA (672×376) 进行正方形中心裁剪：

从两侧各裁剪148像素，得到376×376图像。
调整大小为224×224。

动作格式

10维绝对末端执行器姿态：

维度 0-2: 位置 (x, y, z)，单位为米。
维度 3-8: 6D旋转（旋转矩阵的前两行）。
维度 9: 夹爪宽度，单位为米（0表示关闭，0.08表示打开）。

机器人设置

机器人: Franka Panda
相机: 2个ZED Mini（代理视角和手眼视角）
控制频率: 10Hz
数据收集方式: 通过GELLO进行遥操作

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的真实世界数据集对于推动模仿学习与策略泛化研究至关重要。OpenPI数据集通过精心设计的实验流程构建，利用Franka Panda机械臂与双ZED Mini相机系统，在10Hz控制频率下采集多任务演示数据。操作者借助GELLO遥操作系统执行特定任务，如放置物品或关闭柜门，每个演示均以HDF5格式存储，包含时序动作指令、双视角视频流及末端执行器状态，确保了数据的完整性与时序一致性。

特点

该数据集的核心特征体现在其多模态与高精度的数据组织方式上。每个演示样本均提供224×224分辨率的双视角视觉流，分别对应全局视角与手眼视角，并经过标准的中心裁剪与缩放预处理。动作空间采用10维绝对末端执行器位姿表示，融合位置、6D旋转与夹爪宽度信息，支持精细的运动建模。此外，数据集通过BERT嵌入编码任务语义，增强了任务表征的抽象能力，为跨任务迁移学习提供了结构化基础。

使用方法

研究者可借助该数据集开展机器人模仿学习、视觉运动策略训练等实验。数据以HDF5格式封装，可直接加载动作序列、双视角视频帧及状态信息进行模型训练。任务嵌入向量可用于初始化或条件化策略网络，而标准化的图像与动作格式便于集成至主流强化学习或行为克隆框架。验证集划分为模型评估提供基准，支持在真实世界操作任务上验证算法的泛化性能与鲁棒性。

背景与挑战

背景概述

在机器人操作领域，真实世界数据的稀缺性长期制约着模仿学习与强化学习算法的泛化能力。OpenPI数据集由研究团队于近年创建，聚焦于Franka Panda机械臂在多样化日常任务中的操作演示。该数据集的核心研究问题在于如何通过高质量、多模态的真实交互数据，推动机器人从感知到动作的端到端学习，从而提升在非结构化环境中的自主操作性能。其影响力体现在为机器人社区提供了宝贵的基准资源，促进了基于视觉的模仿学习与策略迁移研究的发展。

当前挑战

OpenPI数据集旨在解决机器人操作任务中动作序列生成与多模态感知融合的挑战，具体包括从视觉输入到连续控制指令的精确映射，以及在不同物体与场景下的泛化能力。在构建过程中，研究人员面临数据采集的复杂性挑战，例如确保双摄像头视角（agentview与eye-in-hand）的时空同步，以及通过遥操作收集高精度末端执行器姿态数据时的人为误差控制。此外，图像预处理中的中心裁剪与分辨率调整需平衡计算效率与信息保留，以维持动作预测的鲁棒性。

常用场景

经典使用场景

在机器人操作领域，真实世界数据对于模型泛化至关重要。OpenPI数据集通过提供Franka Panda机械臂在多样化任务中的演示数据，成为机器人模仿学习研究的经典资源。其核心应用场景在于训练端到端的视觉运动策略模型，使机器人能够从第一视角和全局视角的视频流中直接预测末端执行器的动作序列，实现如放置物体、倾倒食材等精细操作。

解决学术问题

该数据集有效应对了机器人学中从演示中学习的关键挑战，即如何将高维视觉观察映射为连续的低级控制指令。它为解决模仿学习中的分布偏移、多模态感知融合以及长时程任务规划等学术问题提供了实证基础。通过提供精确的动作标注与同步的多视角视频，数据集促进了基于深度学习的策略网络在真实动态环境中的性能评估与比较研究。

衍生相关工作

围绕OpenPI数据集，衍生出一系列机器人学习领域的经典研究工作。这些工作主要集中于改进视觉运动策略架构，例如结合Transformer模型处理时序依赖，或利用对比学习增强视觉表征的鲁棒性。此外，该数据集常被用于评估离线强化学习与行为克隆算法的样本效率，推动了如动作分块预测、任务条件化生成等新方法的提出，丰富了机器人技能获取的理论体系。

以上内容由遇见数据集搜集并总结生成