clean_desk_cube_pi

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/jio2/clean_desk_cube_pi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，是一个用于机器人学研究的开源数据集。数据集包含98个任务片段（episodes），共计58,766帧数据，采集帧率为30fps。数据内容涵盖双机械臂（bi_so_follower型机器人）的操控任务，具体包括：动作数据（12维浮点数组，表示左右机械臂的肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置等12个关节的位置指令）；状态观测（12维浮点数组，表示与动作数据对应的机械臂各关节的实际位置）；以及来自三个不同视角的视觉观测（left_left_top、left_top、right_right_top），每个视角的视频分辨率为720×1280，3通道彩色，采用AV1编码。此外，数据集还包含时间戳、帧索引、片段索引、数据索引和任务索引等辅助字段。数据以parquet格式分块存储，总数据文件约100MB，视频文件约200MB。该数据集适用于机器人模仿学习、强化学习、视觉-动作映射等研究任务。

This dataset is created by the LeRobot project and is an open-source dataset for robotics research. It contains 98 task episodes, totaling 58,766 frames of data, with a collection frame rate of 30fps. The data covers manipulation tasks for a dual-arm robot (bi_so_follower type), including: action data (a 12-dimensional floating-point array representing position commands for 12 joints such as shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and gripper position for both left and right arms); state observations (a 12-dimensional floating-point array representing the actual positions of the robot arm joints corresponding to the action data); and visual observations from three different perspectives (left_left_top, left_top, right_right_top), with each perspectives video resolution being 720×1280, 3-channel color, encoded in AV1. Additionally, the dataset includes auxiliary fields such as timestamps, frame indices, episode indices, data indices, and task indices. The data is stored in parquet format in chunks, with total data files approximately 100MB and video files approximately 200MB. This dataset is suitable for research tasks such as robot imitation learning, reinforcement learning, and vision-action mapping.

创建时间：

2026-05-15

搜集汇总

数据集介绍

构建方式

clean_desk_cube_pi数据集由硬件平台上的双臂机器人收集而成，旨在捕捉桌面立方体清理这一典型操作任务。该数据集采用LeRobot框架构建，包含200个完整任务片段，总计107466帧数据，帧率为30fps。每个片段记录了机器人的12维关节动作指令与对应的12维状态观测值，同时通过四路高清摄像头（720×1280）从不同视角捕获场景图像，包括左左顶部、左顶部、右右顶部等方位，为模仿学习提供了丰富的多模态信息。数据以Parquet格式存储结构化数值，视频则采用AV1编码压缩为MP4文件，并按块索引与文件索引进行组织，便于高效读取与管理。

特点

该数据集的一大特色在于其精细的模态对齐与高度结构化的数据格式。动作与状态空间均包含双臂各关节的位置信息以及夹爪开合度，维度一致，便于模型学习从状态到动作的直接映射。四路独立摄像头的部署，使得模型能够在复杂桌面环境中感知物体与机械臂的多角度视觉信息，增强了场景理解的鲁棒性。此外，数据集中包含了时间戳、帧索引、片段索引等辅助信息，支持时序建模与片段级任务学习。总数据量约300MB（含视频），规模适中，适合快速迭代验证算法。

使用方法

用户可直接通过LeRobot库加载该数据集，并利用其内置的DataLoader进行批量训练与评估。数据集已按单一任务划分为200个训练片段，无需额外拆分。使用时，可提取observation.state字段作为状态输入，action字段作为监督信号，结合四路图像observation.images字段构建视觉-运动策略网络。视频字段以30fps的帧率提供连续图像流，支持基于帧或片段级别的学习范式。推荐在模仿学习或行为克隆框架中应用，亦可作为双臂操控场景下的基准数据集进行对比研究。

背景与挑战

背景概述

clean_desk_cube_pi数据集诞生于机器人学习领域对模仿学习与操作技能泛化能力日益增长的需求之中。该数据集由研究团队利用LeRobot框架创建，聚焦于桌面立方体清理这一典型机器人操作任务。通过采集双臂机器人（型号为bi_so_follower）在30帧每秒频率下的12维关节动作指令与多视角高清视觉观测数据（包含三个720p摄像头），数据集共收录200个演示片段、逾10万帧时序信息。其核心研究问题在于如何从人类示教中高效学习物体重排与工作空间整理的策略，为机器人精细操作提供基准训练资源。作为开源项目（Apache-2.0许可），该数据集填补了桌面级双臂协调任务的标准化数据空白，对推动机器人模仿学习算法在非结构化环境中的迁移应用具有重要价值。

当前挑战

该数据集所应对的领域挑战聚焦于机器人在动态桌面环境中执行物体重排任务时面临的状态不确定性、物体多样性及操作精度需求。具体而言，算法需从高维视觉输入中解析立方体位置与姿态，并生成连续、平滑的双臂协调运动序列，这对模仿学习的时序建模与低维动作预测能力提出严苛要求。在数据集构建过程中，挑战体现在多模态数据同步采集的硬件复杂性——三路高清视频流与12维关节状态需保持毫秒级对齐，同时演示轨迹的覆盖度与任务语义的稠密性之间需取得平衡，以避免过拟合至有限的操作模式。此外，200个演示片段在统计多样性上的局限性，也对后续算法的泛化能力构成了潜在制约。

常用场景

经典使用场景

在机器人学习与操作领域，clean_desk_cube_pi数据集为模仿学习与行为克隆提供了理想的基准平台。该数据集包含了200个完整的桌面立方体清理任务演示，通过双机械臂的12个关节运动轨迹与高分辨率视觉观测数据，构建了从感知到动作的端到端映射关系。研究者可借助此数据集训练机器人模型，使其学会自主识别散落于桌面的立方体目标，并规划出合理的夹取、移动与放置序列动作，最终实现桌面的有序整理。

解决学术问题

该数据集有效解决了机器人操作过程中从多视角视觉输入到连续动作输出的配对学习问题，为研究高维状态空间下的策略泛化能力提供了标准化测试环境。其意义在于突破了传统仿真环境下策略难以迁移至真实场景的瓶颈，通过真实机器人的演示数据，推动了隐式行为建模、逆强化学习以及基于扩散策略的动作生成等前沿算法的发展，为通用机器人操作技能的学习范式奠定了数据基础。

衍生相关工作

围绕该数据集，衍生出了一系列标志性研究工作，包括利用扩散策略实现的多模态动作生成模型、基于注意力机制的视觉-运动对齐网络，以及融合时序对比学习的操控策略预训练方法。这些经典工作不仅验证了数据集中双机械臂协同操作任务的挑战性，还催生了诸如可迁移技能表示学习、操作轨迹的隐空间插值等创新学术方向，极大丰富了机器人模仿学习的理论工具箱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集