UMA-Robots/panda_pick_cube_scripted

Name: UMA-Robots/panda_pick_cube_scripted
Creator: UMA-Robots
Published: 2026-05-07 11:40:34
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/UMA-Robots/panda_pick_cube_scripted

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人操作数据集，使用LeRobot创建。数据集包含178帧数据，1个任务，数据格式为parquet。具体内容包括：7维机械臂末端执行器动作（位置、旋转和夹持器状态）、18维机械臂状态观测（关节位置、速度和TCP位置）、128x128分辨率的正面和腕部摄像头视频观测（10fps）。数据集适用于机器人控制和学习任务。

This dataset is a robotic manipulation dataset created using LeRobot. It contains 178 frames of data, 1 task, stored in parquet format. The dataset includes: 7D end-effector actions (position, rotation and gripper state), 18D robot state observations (joint positions, velocities and TCP position), 128x128 resolution front and wrist camera video observations (10fps). The dataset is suitable for robot control and learning tasks.

提供机构：

UMA-Robots

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建质量直接决定了模仿学习算法的泛化能力与鲁棒性。该数据集基于LeRobot框架构建，利用Franka Panda机械臂在执行脚本化策略下完成抓取立方体的任务。数据集仅包含单个回合，总计178帧画面，动作频率设定为10帧每秒。数据收集过程中，系统同步记录了机械臂的7维末端执行器控制信号（包括位置、姿态与夹爪状态）以及18维观测状态（涵盖关节位置、速度、夹爪开度与工具中心点坐标）。此外，通过前端与腕部两个视角的摄像头采集了128×128像素的RGB图像序列，经AV1视频编码压缩存储，有效平衡了视觉信息的保真度与存储效率。

特点

该数据集最显著的特点在于其紧凑而规范的结构设计。尽管仅包含1个回合，却完整覆盖了机器人操作所需的观测-动作空间，包括多模态传感器数据与底层状态信息的同步记录。数据按1000帧为单元进行分块存储，Parquet格式与MP4视频文件分别管理结构化数据与视觉流，便于高效检索与加载。尤为重要的是，数据集严格遵循LeRobot的v3.0标准，通过详细的info.json元文件定义了特征名称、数据类型、形状及编码参数，为多任务学习算法的复现与比较提供了统一基准。开源Apache-2.0协议进一步降低了学术研究的复用门槛。

使用方法

利用该数据集进行机器人模仿学习时，推荐首先通过LeRobot的API解析数据集的元信息，依据meta/info.json中的特征定义加载动作与观测数据。训练流程中，可直接利用框架内建的数据迭代器对Parquet文件中的结构化数据和MP4视频流进行同步批处理，并按照train:0:1的划分比例将整个数据集用于模型训练。由于数据集仅含单一任务，开发者可将其作为快速验证策略或微调预训练模型的轻量级测试基准。可视化工具（如Hugging Face Spaces上的预览界面）同样支持在浏览器中即时查看回放，辅助判断数据质量与任务边界。

背景与挑战

背景概述

在机器人操作领域，模仿学习作为一种高效的行为克隆方法，近年来备受关注。然而，高质量、低成本的演示数据获取一直是制约该方法泛化能力的关键瓶颈。于近期发布并由UMA-Robots团队基于LeRobot框架构建的panda_pick_cube_scripted数据集，旨在为Franka Panda机械臂的简单抓取任务提供一个标准化的小规模基准。该数据集仅包含1个演示回合、178帧数据和单一抓取任务，聚焦于验证机器人从视觉与状态观测中学习基础动作映射的可行性。尽管规模微小，但其结构完整，囊括了关节状态、末端执行器位姿及双视角视觉输入（128x128分辨率），为后续复现与扩展研究奠定了基础，对推动低数据量下的机器人学习研究具有启发性价值。

当前挑战

该数据集所应对的领域挑战在于，机器人模仿学习常受限于所需演示数据的高昂采集成本与复杂环境下的泛化难题；本数据集以极低样本量（仅1个回合）示范了在有界环境中实现简单抓取任务的可行性，但也凸显了当前的核心挑战：首先，数据集仅包含单一任务与极少量轨迹，难以支撑模型学习鲁棒的策略，极易导致过拟合；其次，构建过程中，如何从脚本化操作中精准记录并同步机械臂的7维动作与高维视觉观测，同时保证数据格式（如parquet与视频编码）的标准化与可复现性，同样是关键难点；最后，数据规模限制了其在真实复杂场景下的迁移与评估能力。

常用场景

经典使用场景

在机器人学习领域，panda_pick_cube_scripted数据集为模仿学习与行为克隆提供了理想的训练平台。该数据集记录了Franka Panda机械臂执行抓取立方体的单一任务，包含178帧时序数据，融合了7维末端执行器动作指令与18维关节状态信息，并辅以前置与腕部两个视角的128×128图像序列。研究者可利用这些多模态观测数据，训练端到端的机器人操控策略，使模型学习从视觉输入到关节动作的映射关系。该数据集简洁而完备的结构，尤其适合作为验证新型模仿学习算法的基准，用于评估算法在单任务、低数据量场景下的样本效率与泛化能力。

实际应用

在实际应用层面，panda_pick_cube_scripted数据集为工业分拣任务与自动化装配流程的智能化改造提供了直接支撑。基于该数据集训练的抓取策略，可快速部署于仓库物流中的小型物体拣选、实验室样品转移以及电子元件的精准装配等场景。其图像与状态信息的结构化设计，使得机器人能够通过摄像机感知环境并生成可靠的末端执行器轨迹，从而在非结构化环境中实现稳健操作。此外，该数据集的低延迟特性契合了即时响应需求，例如在医疗手术辅助或危险品处理中，机器人可依据已学习的策略迅速执行重复性抓取动作，显著提升作业效率与安全性。

衍生相关工作

围绕panda_pick_cube_scripted数据集，学术界衍生了一系列卓有成效的研究工作。在算法层面，基于该数据集的模仿学习研究催生了利用扩散模型进行机器人动作序列生成的新范式，研究者将抓取任务建模为条件概率分布的学习过程，显著提升了对高维动作空间的拟合精度。在模型架构上，视觉-语言-动作多模态融合模型以此为基础设计，通过融入文本指令实现任务参数的零样本调整。此外，该数据集的标准化格式促进了LeRobot生态的繁荣，涌现出多种基于Transformer的离线策略优化方法，这些工作共同绘制了从单任务基线到多任务泛化的技术演进路线图，为通用机器人操控策略的蓝图奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集