clean_desk_v15

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/jio2/clean_desk_v15

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学数据集，使用LeRobot创建。数据集采用Apache 2.0许可证，主要面向机器人相关任务。数据集包含219个episodes，总计173185帧，涉及1个任务。数据以1000帧为chunk大小存储，数据文件总大小为100MB，视频文件总大小为200MB，帧率为25fps。数据集包含动作和状态观测数据，其中动作和状态观测都包含12个关节位置信息。视频观测数据来自三个不同视角的摄像头：左腕部、顶部和右腕部，分辨率分别为480x640、720x1280和480x640。数据集还包含时间戳、帧索引、episode索引等元数据。数据以parquet文件格式存储，视频以mp4格式存储。

This is a robotics dataset constructed using LeRobot, licensed under the Apache 2.0 open-source license, and primarily designed for robotics-related tasks. It comprises 219 episodes, with a total of 173,185 frames, and covers one single task. The data is stored in chunks of 1000 frames, with the total size of the data files reaching 100 MB and the total size of the video files reaching 200 MB, at a frame rate of 25 fps. The dataset includes action and state observation data, both of which contain 12 sets of joint position information. Video observations are captured from three camera perspectives: left wrist, top-down, and right wrist, with resolutions of 480×640, 720×1280, and 480×640 respectively. It also includes metadata such as timestamps, frame indices, episode indices, and other relevant auxiliary information. The data is stored in Parquet file format, while the videos are stored in MP4 format.

创建时间：

2026-04-27

原始信息汇总

数据集概述：clean_desk_v15

该数据集专注于机器人操作任务，基于 LeRobot 框架创建，旨在用于机器人学习与仿真研究。

基本信息

任务类别：机器人学（robotics）
许可证：Apache-2.0
机器人类型：bi_so_follower（双臂跟随机器人）
总任务数：1
总片段数：219
总帧数：173,185
帧率：25 FPS
数据文件大小：约 100 MB
视频文件大小：约 200 MB
数据集分割：全部数据用于训练（分割 train: 0:219）

数据特征

数据集包含以下特征：

action：动作指令，包含12维浮点数，对应左右臂各6个自由度。
- 左侧：left_shoulder_pan.pos、left_shoulder_lift.pos、left_elbow_flex.pos、left_wrist_flex.pos、left_wrist_roll.pos、left_gripper.pos
- 右侧：right_shoulder_pan.pos、right_shoulder_lift.pos、right_elbow_flex.pos、right_wrist_flex.pos、right_wrist_roll.pos、right_gripper.pos
observation.state：机器人状态观测，维度与动作相同，包含12维浮点数。
observation.images：4路摄像头视角的图像观测。
- left_left_wrist：左臂左腕相机，480x640 分辨率，3通道，AV1编码，25 FPS。
- left_top：顶部左视角相机，720x1280 分辨率，3通道，AV1编码，25 FPS。
- right_right_wrist：右臂右腕相机，480x640 分辨率，3通道，AV1编码，25 FPS。
timestamp：时间戳（float32，1维）。
frame_index：帧索引（int64，1维）。
episode_index：片段索引（int64，1维）。
index：全局索引（int64，1维）。
task_index：任务索引（int64，1维）。

数据存储结构

数据格式：Parquet 文件（数据）与 MP4 文件（视频）。
存储路径模式：
- 数据：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
- 视频：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
分块大小：每块1000帧。

数据用途

该数据集适用于训练机器人模仿学习、强化学习或行为克隆模型，利用多视角视觉输入与高维关节状态/动作数据进行学习。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是驱动模仿学习与策略泛化的基石。clean_desk_v15 数据集依托 LeRobot 框架构建，专注于桌面清理这一单一任务，通过双臂机器人平台（bi_so_follower）采集了 219 个演示回合，总计 173,185 帧数据。数据以每 1000 帧为一个分块（chunk），存储为 Parquet 格式的表格数据与 AV1 编码的视频文件，并遵循“训练集覆盖全部回合”的单一数据划分策略，确保端到端训练的完整性。

使用方法

该数据集通过 LeRobot 生态系统的索引机制进行高效加载：用户可直接利用 LeRobot 库中的数据集加载器，按 episode_index 或 frame_index 索引指定回合与帧，获取同步的关节状态、夹爪动作及多视角图像数据。Parquet 表结构支持列式高效读取，而 AV1 压缩视频则大幅降低存储开销，使其适用于 NVIDIA Isaac Gym 或 MuJoCo 等模拟环境中的策略训练。此外，数据集已预置可视化在线接口，研究者可便捷预览样本以验证数据质量。

背景与挑战

背景概述

在机器人学习领域，模仿学习因其能够直接从人类示范中习得复杂行为而备受关注，然而高质量、多模态的演示数据集仍是制约其发展的关键瓶颈。clean_desk_v15数据集由研究人员依托LeRobot框架构建，旨在为桌面清洁这一典型精细操作任务提供标准化的训练资源。该数据集采集了219个示范片段，涵盖超过17万帧、长达约1.93小时的演示数据，帧率为25 FPS。通过高分辨率视觉观测（如左腕相机480×640、左顶相机720×1280）与12维关节状态及动作空间（包括左右双臂的6个自由度位置与夹爪控制）的同步记录，为双臂协作机器人研究提供了丰富的多模态信息。数据集采用Apache-2.0许可公开，以parquet与视频文件高效存储，降低了模仿学习与行为克隆研究的数据门槛，对推动机器人从演示中泛化学习具有里程碑意义。

当前挑战

该数据集所应对的领域核心挑战在于桌面场景下的精细操作任务，例如物体识别、抓取与清理需要机器人精确协调双臂动作，并依赖视觉反馈进行实时调整，这要求模型能够从有限的高维观测中提取有效的时空特征。在构建过程中，研究人员面临了多重困难：首先，确保219个示范片段的动作一致性及任务描述的精准性，以降低示范多样性引入的噪声；其次，同步采集多相机视角（如腕部与顶部图像）与12维关节状态，并处理不同分辨率（480×640与720×1280）及帧率的校准问题；此外，采用AV1视频编码以平衡数据质量与存储效率，压缩后视频文件仍达200MB，对数据管道提出了高效读取与解码的考验。

常用场景

经典使用场景

在机器人学习的研究疆域中，clean_desk_v15数据集作为一项专注于桌面清理任务的精细化操作资源，承载着从人类示范中习得灵巧操控能力的核心使命。该数据集依托LeRobot框架采集，涵盖了219条完整演示轨迹，记录了双臂机器人在执行桌面物品归位、杂物清除等复杂行为时的关节角度状态与多视角视觉观测。研究者可利用这一数据资源训练模仿学习或强化学习模型，使机器人通过端到端的行为克隆策略，掌握将桌面上杂乱无章的物品有序整理至指定位置的高阶技能，从而为家庭服务与办公环境中的自动化整理技术奠定基础。

解决学术问题

该数据集有力回应了机器人领域长期面临的从有限示范中泛化灵巧操作策略的学术难题。传统的运动规划方法在面对非结构化桌面场景中物体位置随机、形态多样的情况时，往往因需要精确的环境建模而陷入困境。clean_desk_v15通过提供包含12维连续动作空间与4路高分辨率视频流的同步数据，推动了视觉运动策略（Visual Motor Policies）的深入研究，使模型能够在感知与动作之间建立稳健的映射关系。其公开的标准化数据格式还促进了不同算法在相同基准上的公平比较，加速了策略学习领域对数据效率、鲁棒性和长时域任务分解等关键瓶颈的理论突破。

实际应用

在实际应用层面，clean_desk_v15所代表的桌面清理技能具有广阔的产业化前景。基于该数据训练的机器人可直接部署于智能家居场景，承担茶几、书桌或餐桌的自动清洁与收纳工作，减轻人类日常家务负担。在商业环境中，该类技术可集成于酒店客房服务、办公室巡检或实验室自动台面整理系统，提升标准化作业效率。此外，该数据集所展示的双臂协调控制逻辑，经过迁移学习后，有望被适配至工业生产中的物料分拣、零件装配等需要精细操作的任务，从而在服务型机器人与协作型工业机器人之间架起技术迁徙的桥梁。

数据集最近研究