clean_desk_pi

Hugging Face2026-05-11 更新2026-05-12 收录

下载链接：

https://huggingface.co/datasets/jio2/clean_desk_pi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot项目创建的双臂机器人操作数据集，专注于机器人学习任务，包含多模态记录。数据集由301个独立的情节（episodes）组成，总计172,395帧数据，采集帧率为25Hz。数据内容包括：1）动作数据：一个12维的浮点向量，表示左右机械臂各6个关节（肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪）的目标位置；2）状态观测：一个与动作数据维度相同的12维浮点向量，记录各关节的实际位置；3）视觉观测：来自三个固定摄像头的视频流，包括左腕摄像头（分辨率640x480）、左上摄像头（分辨率1280x720）和右腕摄像头（分辨率640x480），均以25fps的AV1编码视频存储；4）元数据：包括时间戳、帧索引、情节索引和任务索引。数据集采用Apache 2.0开源协议，数据以分块的Parquet文件格式组织，适用于机器人模仿学习、强化学习、行为克隆等算法的训练与评估。

创建时间：

2026-05-08

原始信息汇总

数据集概述：clean_desk_pi

基本信息

数据集名称：clean_desk_pi
发布者：jio2
许可证：Apache-2.0
任务类型：机器人学（robotics）
创建工具：使用 LeRobot 创建

数据集结构

总片段数：301
总帧数：172,395
总任务数：1
帧率：25 FPS
数据文件格式：Parquet（存储路径：data/*/*.parquet）
视频文件格式：MP4（存储路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4）
数据文件大小：100 MB
视频文件大小：200 MB
机器人类型：bi_so_follower
数据集划分：只有训练集 train，覆盖全部片段（索引 0 至 300）

特征字段说明

字段	数据类型	形状	描述
`action`	float32	(12,)	包含左右双臂的关节位置，共12个维度（左臂6个 + 右臂6个）
`observation.state`	float32	(12,)	机器人状态，维度与 `action` 相同
`observation.images.left_left_wrist`	video	(480, 640, 3)	左侧手腕摄像机视频，分辨率480×640，3通道
`observation.images.left_top`	video	(720, 1280, 3)	左上方摄像机视频，分辨率720×1280，3通道
`observation.images.right_right_wrist`	video	(480, 640, 3)	右侧手腕摄像机视频，分辨率480×640，3通道
`timestamp`	float32	(1,)	时间戳
`frame_index`	int64	(1,)	帧索引
`episode_index`	int64	(1,)	片段索引
`index`	int64	(1,)	索引
`task_index`	int64	(1,)	任务索引

关键说明

所有视频使用 AV1 编码、YUV420P 像素格式，无深度图信息，无音频轨道。
action 和 observation.state 包含的关节名称相同，分别为左右臂的各6个关节（肩部、肘部、腕部、夹爪等）。
数据集覆盖单一任务，共301个片段。

搜集汇总

数据集介绍

构建方式

clean_desk_pi数据集由LeRobot框架精心构建，专注于机器人操作领域的桌面清洁任务。数据采集过程中，操作员通过遥控方式引导双臂机器人执行清理动作，同步记录高精度关节状态与多视角视觉信息。数据存储采用Parquet格式高效管理结构化字段，包括12维动作指令与状态观测，以及来自左右腕部和顶部摄像头的视频流，分别以640×480和1280×720分辨率捕获，编码为AV1格式。数据集共包含301个完整任务片段，总帧数逾17万帧，所有样本均划分至训练集，确保了数据的一致性与规模化可用性。

特点

该数据集的核心特性在于其多模态融合与高保真度。动作与状态空间均涵盖双臂各关节位置及夹爪开合度，维度精确对应真实机器人构型。视觉观测从三个独立视角同步采集，其中腕部摄像头提供局部操作细节，顶部摄像头则记录全局场景，为模仿学习与策略泛化奠定了丰富的感知基础。数据以每秒25帧的稳定频率录制，时间戳与帧索引精确对齐，支持时序建模。单一任务类型的设计聚焦清洁场景，利于深入探索操作技能的去噪与泛化能力。

使用方法

使用clean_desk_pi数据集时，推荐通过LeRobot库直接加载，其内置的数据加载器可自动解析Parquet文件与视频流，返回结构化的批处理数据。用户可根据任务需求提取动作序列、状态轨迹或图像帧，用于训练模仿学习或强化学习模型。数据集已按片段索引组织，支持按episode_index进行序列划分，便于构建训练与验证子集。所有特征均以NumPy数组形式提供，兼容PyTorch与TensorFlow等主流框架，降低了机器人学习研究的工程门槛。

背景与挑战

背景概述

在机器人学习领域，模仿学习与行为克隆技术正逐步成为训练机器人执行复杂任务的核心方法，其中高质量的数据集是驱动算法进步的关键基石。clean_desk_pi数据集由研究机构或个人贡献者jio2于近期创建，基于LeRobot框架发布，旨在为双臂协作机器人提供精细化的桌面清洁演示数据。该数据集聚焦于学习机器人在桌面环境中的清理行为，涉及双机械臂的协同操作与物体交互。通过记录301个完整演示片段、总计约17万帧的高频轨迹数据，并融合多视角视觉信息与12维关节状态，clean_desk_pi为机器人操作技能学习提供了丰富的监督信号。其开放式的Apache-2.0许可与标准化数据格式，有望推动双臂操作任务中的研究进展，并成为评估模仿学习算法的基准之一。

当前挑战

该数据集所应对的领域挑战集中于双臂协作机器人如何高效学习桌面清理任务中的精细操作与动态适应能力。桌面清洁要求机器人具备对杂乱环境中物体的识别、抓取与有序归置的能力，这对行为克隆算法的泛化性、抗干扰性以及动作序列的鲁棒性提出严峻考验。在数据构建层面，挑战主要体现在：如何设计并同步采集双臂共有12个自由度的高频动作信息与多摄像头视觉流，以完整捕捉高动态的清理行为；如何确保301个演示片段在任务约束下覆盖充分的场景变异性，避免数据偏差导致模型过拟合；此外，面对约200MB的视频与100MB的结构化数据，还需高效解决数据存储、压缩与格式统一的工程难题，以实现开源研究与复现的便利性。

常用场景

经典使用场景

在机器人学习领域，clean_desk_pi 数据集专为模仿学习与行为克隆研究而设计，尤其聚焦于双臂协作桌面清理任务。通过采集双机械臂在真实环境中的多视角视觉观测、关节状态与动作序列，为训练机器人从人类示范中自主习得精细操控能力提供了高质量的基准数据。研究者可利用该数据集训练端到端策略，使机器人学会协调左右臂完成拾取、移动与归位等复合动作，是验证模仿学习算法在复杂人机协同场景中泛化性能的理想平台。

实际应用

在工业与家庭服务场景中，clean_desk_pi 数据集驱动的模型可直接赋能双臂机器人执行桌面整理、物品分类与清洁维护等实用任务。例如，配备学习策略的机器人能依据视觉反馈自主规划抓取路径，适应桌面布局的细微变化，从而在仓储物流、实验室自动化或智能家居中替代重复性人力操作。其多视角视频与状态记录还支持部署前在仿真环境中进行策略迁移测试，降低真实部署风险。

衍生相关工作

该数据集催生了一系列经典衍生研究，包括利用其多模态数据开发跨场景策略迁移框架、基于时序对比学习的表征提取方法，以及融合视觉语言模型的指令跟随策略。LeRobot 社区基于此数据构建了基线模型与训练管线，推动了诸如 ACT（Action Chunking Transformers）与扩散策略在双臂任务中的适配。此外，其规范的 Parquet 与视频存储格式成为了后续数据集构建的模板，促进了通用机器人学习基准的统一化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集